Échantillonnage IRCS - Modèles d'échantillonnage

Les modèles d’échantillonnage de l’IRCS sont fondés sur les sources du recensement, qui sont organisées spatialement : pour chaque recensement, la population de l’ensemble du pays est divisée en petites unités géographiques, les subdivisions de recensement. Dans chaque subdivision, l’unité de dénombrement du recenseur est la demeure. Dans notre modèle, chaque subdivision est échantillonnée séparément, l’unité de base étant également la demeure : le nombre de demeures dans l’échantillon est proportionnel au nombre de demeures de l’unité géographique dont l’échantillon est issu (Voir Traitement spatial IRCS ). Les échantillons IRCS sont de ce fait construits en grappe (cluster) autour de la demeure : tous les individus de chaque demeure sélectionnée sont comptabilisés. Cela augmente légèrement la représentativité géographique des échantillons IRCS par rapport à un simple échantillon aléatoire de population.

Par ailleurs, sont légèrement surreprésentées également les populations des demeures de grande taille (large dwellings ou LD), terme qui désigne une structure où logent au moins 31 personnes. La prise en compte de l’ensemble des demeures de grande taille dans l’échantillon de l’IRCS permet une analyse détaillée des populations qui y résident. Le modèle d’échantillonnage des demeures de grande taille (demeures multifamiliales, institutions, camps de travail) est détaillé dans la section Demeures de grande taille.

La définition des unités de dénombrement du recensement a évolué entre le recensement de 1911 et celui 1951. En 1911, 1921 et 1931, les recenseurs ont reçu l'instruction de compter dans une première colonne les demeures et dans une deuxième colonne la famille, le ménage ou l'institution. En 1941, la définition des lieux de résidence inclut les bâtiments en plus des demeures et des familles/ménages. En 1951, seuls les bâtiments et les ménages sont utilisés comme unités de dénombrement. En se fondant sur la demeure comme unité de base, notre modèle d'échantillonnage s'adapte finalement à la majorité de ces changements tout en favorisant l’analyse comparative entre les recensements de 1911 à 1941. Une demeure est une structure distincte, à adresse unique et occupée en majorité par des ménages et des familles. La différence entre une famille et un ménage est que le ménage peut inclure des individus qui ne sont pas des membres de la famille : locataires, domestiques, employés, etc.

Pour chaque année de recensement, l'échantillon principal inclut les demeures d'au plus 30 personnes. Cette limite a été choisie après examen préliminaire du recensement de 1911 et conformément à la méthode utilisée pour d'autres échantillons d'usage public dont ceux de l'IPUMS. Elle permet ainsi d'établir des points de comparaison entre les projets canadien et américain de base de données. La catégorie des demeures d’au plus 30 personnes inclut la plupart des demeures privées ou à famille unique et rassemble la grande majorité de la population. De son côté, l’échantillon des demeures de 31 résidents ou plus (demeures de grande taille) correspond en principe aux résidences collectives. On retrouve dans cette catégorie les résidents de la plupart des institutions.

Le choix des demeures s’est fait de manière aléatoire dans notre modèle en suivant le principe d’échantillonnage à probabilité égale (epsem, equal probability of selection method). Lors de l’archivage des recensements sur microfilm dans les années 1950, chaque bobine a correspondu à une unité géographique de petite taille. Nous avons pris au hasard comme point de départ une demeure parmi les n premières demeures de chacune de ces bobines de microfilm, donc de chaque unité géographique. Ensuite, nous avons systématiquement sélectionné toutes les demeures multiples de n dans chaque bobine et donc dans chaque unité géographique. Le nombre de bobines passe de 140 en 1911 à plus de 4200 en 1951 ; le nombre n est de 20 en 1911, 25 en 1921 et 33 en 1931, 1941 et 1951, afin d’atteindre les densités d'échantillon désirées de 5 % des demeures, familles et individus en 1911, 4 % en 1921 et 3,33 % en 1931, 1941 et 1951. Le nombre d'entrées individuelles varie quant à lui de 360 000 à 420 000 selon l'année de recensement : les chiffres exacts de l'échantillon par année de recensement sont disponibles dans la section Fichiers CDR). Notons que si notre échantillon a été sélectionné à partir de la position de la demeure sur le microfilm, les microfilms n’ont pas été utilisés pour l’informatisation des données : elle s’est faite à partir de la numérisation des documents originaux.

Pour chaque demeure sélectionnée, nous avons informatisé les données de chaque individu y résidant, ce qui donne lieu à des échantillons par grappes d'individus à l'intérieur des demeures et, en principe, à des échantillons par grappes de familles et de ménages à l'intérieur des demeures, bien que la majorité des demeures ne comprennent qu'une seule famille et un seul ménage. Les estimations sur les caractéristiques des individus, des familles et des ménages effectuées au moyen d'intervalles de confiance et d'erreurs types doivent tenir compte de cet effet de grappe (cluster). Celui-ci provient de la plus grande homogénéité de certaines caractéristiques chez les individus ou les familles partageant un même demeure par rapport à un échantillon de même taille pris au hasard, en particulier l’origine ethnique et la religion. Il est prouvé que cet effet n’existe que pour certaines variables de ce type ; les autres, comme l'âge, étant peu affectées puisque leur variation est sensible même chez des individus vivant ensemble. De plus, dans un grand nombre d'analyses, les échantillons sont suffisamment volumineux pour que la question du biais statistique ne se pose pas ; la prise en compte de valeurs corrigées en tenant compte des estimations du biais n’est donc pas primordiale (Ornstein 2000). Dans l'analyse, c'est le volume des échantillons qui est le plus important, et non la fraction de l'échantillonnage (5 %, 4 % ou 3 %).

Le suréchantillonnage des demeures de grande taille (c’est-à-dire la prise en compte d’un pourcentage plus grand d’individus dans l’échantillon des demeures de grande taille que dans l’échantillon des demeures ordinaires) permet de prendre en compte le nombre relativement faible et la dispersion des lieux de résidence à effectif important comme les maisons de chambres et les institutions (hôpitaux, orphelinats, internats et prisons). Parmi ces demeures, on retrouve aussi les résidences de travail (chantiers, campements miniers ou baraquements) qui sont à très forte densité dans certaines régions, surtout au début du vingtième siècle. La majorité de ces installations figurent dans la catégorie générique des demeures de grande taille. Notons cependant que certains de ces lieux de résidence, ceux comptant moins de 31 personnes, sont saisis dans l'échantillon principal, comme les petits hôpitaux, les pensionnats ou les camps de travail. Pour effectuer une analyse nationale ou régionale complète d'un type d'institution ou des camps de travail, il faut donc combiner l'échantillon principal et l’échantillon des demeures de grande taille en pondérant les sélections de façon pertinente (voir Pondération).

On obtiendrait des échantillons epsem de la population si la fraction d'échantillonnage des demeures de grande taille était la même que pour le reste de l'échantillon : il s'agirait de sélectionner 5, 4 ou 3 % (selon l’année) de la population de ces lieux de résidence. Par exemple, dans un échantillon de 3 %, un seul individu serait sélectionné pour une institution d'environ 35 résidents. Nous avons plutôt choisi de prendre un suréchantillon des demeures de grande taille, la fraction d’échantillonnage variant avec le type de résidents (voir Pondération). Le suréchantillonnage des demeures de grande taille satisfait deux de nos objectifs principaux. D'abord, comme nous l'avons indiqué, les résidents de domiciles de grande taille présentent un intérêt historique et analytique considérable et le fait de les échantillonner ainsi permet une étude détaillée. Ensuite, dans la mesure où les résidents des domiciles de grande taille sont différents du reste de la population, le suréchantillonnage augmente la précision des estimations des caractéristiques de la population totale, même si la catégorie des domiciles de grande taille n'est pas volumineuse comparée à l'échantillon total (Kish 1967, chap. 3).

Nous avons réalisé le suréchantillonnage en créant d’abord une liste exhaustive de tous les domiciles de grande taille en même temps que nous identifiions l'échantillon principal des demeures de 30 résidents ou moins. L’échantillonnage spécifique des grandes demeures s’est fait en même temps que l’échantillonnage principal, mais en utilisant une autre fraction d’échantillonnage (voir Pondération). Nous nous sommes servi d'un logiciel unique (SPIDER) conçu spécifiquement pour cette fonction et décrit plus en détail dans la section Ressources (voir Élaboration du logiciel IRCS). Cette méthode, qui implique de consulter intégralement toutes les bobines pour indexer les demeures, nous a permis de nous rendre compte des lacunes dans les dossiers, des réponses illisibles, de l'inscription de populations inattendues et d'autres problèmes susceptibles de survenir lors de l’informatisation des échantillons. Bien qu’elle demeure une tâche ardue, cette sélection d’échantillons a été rendue possible par l’existence de ce logiciel et le fait que la population ait été relativement réduite du Canada à cette époque malgré une augmentation appréciable durant la période (la population du Canada, qui ne comprenait pas Terre-Neuve jusqu'à 1951, est passée d'environ 7,2 millions de personnes en 1911 à 11,5 en 1941, puis à un peu plus de 14 en 1951).

1911 Census

Échantillonnage IRCS - Modèles d'échantillonnage