IRCS Header

1911 Census


 

 

Élaboration du logiciel IRCS


Introduction

Cette section donne un aperçu des multiples applications du logiciel élaboré par l'IRCS, qui a été essentiel au traitement de données provenant d'environ 20 millions d'images.

Le logiciel était sous la responsabilité de l'équipe de technologie de l'information (TI) de l'IRCS, située principalement à l'Université d'Ottawa, où se trouve le serveur central. De plus, chaque centre universitaire avait sur place un représentant TI pour s'occuper des problèmes locaux.

L'élaboration du logiciel s'est déroulée en trois étapes.

1. La première étape coïncide avec les débuts du projet. Bien que les membres de l'équipe TI, relativement peu nombreux, soient tous à l'aise avec l'informatique, seuls quelques-uns sont spécialistes TI de profession. L'équipe a alors pour objectif d'élaborer un logiciel semblable aux programmes utilisés par les projets de recensement précédents, et ce au moyen d'outils Microsoft comme Visual Basic et Access. L'IRCS se concentre à cette époque sur le recensement de 1911.

2. Lors de la deuxième étape, entamée vers la fin 2004, la responsabilité TI est centralisée à Ottawa. L'équipe s'agrandit à mesure que des professionnels des logiciels s'y intègrent. L'objectif devient l'innovation. Les outils Microsoft sont relégués à l'arrière-plan et un environnement de développement logiciel est mis en place autour du langage de programmation Java. L'IRCS se concentre à cette époque sur les recensements de 1921 à 1941.

3. Avec la troisième étape, qui commence vers le milieu de 2006, le recensement de 1951 devient la préoccupation centrale.

Les questionnaires ont complètement changé pour le recensement de 1951. Les données étaient auparavant recueillies sous forme de tableau ; l'agent inscrivait les réponses à chaque question dans une nouvelle colonne et chaque rangée représentait un individu. Un questionnaire moyen contenait généralement toutes les réponses de plusieurs individus. En 1951, seules quelques réponses sont encore écrites à la main, la majorité étant graphitées. En outre, un questionnaire ne contient en 1951 les réponses que d'un seul individu. Par conséquent, les images numérisées de 1951 sont pour la plupart incompatibles avec le logiciel conçu pour traiter les recensements de 1911 à 1941. il faut créer un nouvel ensemble de programmes pour les traiter.

L'équipe TI a élaboré un logiciel pour résoudre les difficultés rencontrées à chaque étape clé du projet :

1. Sélection des éléments de l'échantillon
2. Saisie des données
3. Nettoyage des données
4. Codage des données
5. Géocodage
6. Diffusion des données

Les sections suivantes décrivent les diverses solutions logicielles créées pour chacune des étapes, étapes communes à tous les recensements analysés par l'IRCS (1911 à 1951).

L'IRCS recueille ses données à partir d'images numérisées des questionnaires de recensement plutôt que par l'intermédiaire de la microfiche généralement utilisée pour les projets de recensement. L'entrée des images, respectant l'organisation par bobines des microfiches, constitue la principale source de données dans le logiciel IRCS.
1. Sélection des unités de l'échantillon

La sélection des unités de l'échantillon (Sample Point Selection, SPS) consiste à déterminer les images qui doivent faire partie de l'échantillon. L'IRCS étant basée sur un échantillon et non sur l'intégralité des données des recensements, le projet définit les stratégies d'échantillonnage pour chaque année de recensement, stratégies qui déterminent quelles images des questionnaires de recensement doivent être choisies pour un recensement donné.

1911

Deux programmes sont utilisés ensemble pour produire les échantillons de 1911. Le premier enregistre le nombre de ménages pour chaque sous-district de recensement : un opérateur examine chaque image de questionnaire au moyen d'un logiciel de visualisation d'image indépendant et enregistre le nombre de logements par sous-district. Le deuxième programme se sert de ces chiffres et d'un générateur de nombres aléatoires pour produire une liste de numéros de logements pour chaque sous-district. Chaque numéro de la liste représente un logement qui doit être compris dans l'échantillon d'un sous-district particulier.

1921-1941

Un nouveau programme, qui améliore la qualité des échantillons en donnant à l'opérateur une plus grande maîtrise, est créé pour la sélection des unités de l'échantillon pour les recensements de 1921 à 1941. L'opérateur se sert d'un logiciel de visualisation d'image créé spécialement à cet effet pour parcourir tous les logements figurant sur une bobine. Une fois qu'il a repéré un logement cible (les caractéristiques d'un logement cible sont définies par le protocole d'échantillonnage élaboré pour l'année de recensement correspondante), l'opérateur confirme la lisibilité de l'échantillon puis se sert de l'interface de type « pointer-cliquer » pour souligner les données des occupants du logement (le même exercice pour le recensement de 1911 a été retardé quand le logement choisi par l'ordinateur a dû être remplacé au moment de l'entrée des données parce qu'il était illisible. La nouvelle méthode de sélection permet à l'opérateur de substituer aisément un logement cible illisible par un échantillon lisible). Quand l'utilisateur marque ainsi l'image, le programme utilise les coordonnées de l'image pour produire une unité pour l'échantillon et la sauvegarde dans la base de données.

1951

La méthode de sélection doit être modifiée pour le recensement de 1951 puisque les questionnaires sont complètement différents de ceux des années précédentes. Les versions antérieures sont conçues pour des questionnaires par tableau dont chaque rangée représente les données d'un individu ; par conséquent, un seul questionnaire contient toutes les microdonnées de plusieurs individus. Or, chaque questionnaire de l'année 1951 ne contient les données que d'un seul individu et, de plus, les feuilles de questionnaire sont imprimées des deux côtés.

Programme d'indexation

Un nouveau logiciel de visualisation d'image est créé pour indexer les images de l'année 1951. À mesure que l'opérateur parcourt les bobines, il examine chaque image et l'étiquette, au moyen d'une fonction du logiciel, dans l'une des rubriques suivantes :

A) Le numéro de demeure figurant sur l'image est différent de celui qui figure sur l'image précédente.

B) L'individu représenté par l'image est désigné comme chef du ménage.

C) L'image est endommagée ou illisible.

D) L'image représente un document directeur, utilisé pour marquer le début d'un nouveau sous-district de recensement.

Programme d'échantillonnage

Le programme d'échantillonnage de l'année 1951 utilise les résultats du processus d'indexation pour produire des unités pour l'échantillon. Les renseignements sur le ménage recueillis au cours de l'étape d'indexation sont utilisés pour identifier les ménages cibles pour lesquels des unités de l'échantillon ont été créées.

Programme de substitution

Un programme de substitution est en outre mis en place pour remplacer de manière adéquate les unités pour l'échantillon qui, au cours du processus d'entrée des données, sont jugés inutilisables, généralement parce que l'opérateur conclut qu'il manque des individus dans le ménage (il s'agit la plupart du temps d'une erreur d'indexation).

2. Saisie des données

La saisie des données consiste à transcrire les microdonnées des images dans une base de données. Les opérateurs de saisie entrent les microdonnées provenant des images dans des modules informatiques spéciaux créés par le groupe TI. Ces programmes effectuent les validations de base des données ainsi saisies avant de les stocker dans une base de données DB2.

1911

Le programme de saisie de données pour l'année 1911 se présente sous la forme d'un écran reproduisant le questionnaire de recensement. Sur la partie supérieure de l'écran figure un numéro repère qui identifie une demeure particulière sur une image donnée. Les caractères principaux du numéro indiquent l'image que l'opérateur doit ouvrir (au moyen d'un autre logiciel de visualisation). Les derniers caractères du numéro servent à identifier la demeure cible si plusieurs demeures figurent sur l'image. Les microdonnées des individus correspondant à la demeure cible sont entrées dans le logiciel de saisie de données.

1921-1941

Pour les recensements de 1921 à 1941, le programme de saisie de données utilise aussi une grille pour entrer les données correspondant à chaque individu. Cependant, au lieu d'un numéro repère, le logiciel présente une image réelle dans un logiciel de visualisation et souligne les individus cible, en se servant des données recueillies pendant la sélection.

1951

Les programmes de saisie de données pour l'année 1951 se basent sur un logiciel de visualisation élaboré par l'IRCS et qui comporte des fonctions de lecture optique de marques. Non seulement ce logiciel permet-il à l'opérateur de voir les images de chaque formulaire relevant d'une unité d'échantillon donnée, mais il interprète aussi les marques sur le formulaire et complète automatiquement une grille de données avec les réponses correspondantes. L'opérateur peut indiquer manuellement la bonne réponse quand l'ordinateur n'y parvient pas.

SPIDER

Le programme d’identification des unités d'échantillons, de saisie et de communication des données (Sample Point Identification, Data Entry and Reporting system, SPIDER) a été élaboré par l'IRCS comme point de départ pour tous les outils logiciels relatifs à la création de microdonnées à partir d'images numérisées. Il utilise la notion de tâches pour gérer tous les aspects de la saisie de données : indexation, sélection des unités d'échantillons, entrée des données, vérification, lecture et modification, nettoyage et communication.

• Tâche d'indexation : permet à l'utilisateur d'indexer les images sur une bobine.
• Tâche de sélection : permet à l'utilisateur de définir, à partir des questionnaires d'une bobine particulière, des unités pour l'échantillon.
• Tâche d'entrée de données : permet à l'utilisateur de saisir les microdonnées pour les unités de l'échantillons sélectionnées sur une bobine particulière.
• Tâche de vérification : permet à l'utilisateur de vérifier la saisie effectuée par un autre utilisateur.
• Tâche de lecture et modification : permet à l'utilisateur de consulter les microdonnées d'une unité de l'échantillon. Toute correction est soumise à un logarithme spécial qui sert à déterminer le taux d'exactitude de la saisie des données.
• Tâche de nettoyage : permet à l'utilisateur de visualiser des données signalées par le programme de nettoyage et, s'il y a lieu, de les corriger.
• Tâche de communication : permet à l'utilisateur et à son superviseur d'échanger des messages concernant une unité particulière de l'échantillon.

L'écran principal de SPIDER, la liste des tâches (Task List), donne accès à toutes les tâches attribuées à l'utilisateur. Le logiciel donne aux superviseurs de multiples options de gestion des tâches. Il suffit d'ouvrir une tâche pour lancer l'outil personnalisé associé au type de tâche.

3. Nettoyage des données

Une fois les données saisies, elles sont soumises à un programme de nettoyage qui produit une copie améliorée, ou propre, de l'information textuelle originale. Le logiciel utilisé pour le cycle de nettoyage vérifie les données en trois étapes :

1) Promotion: au cours de la saisie des données, un opérateur peut suggérer une réponse si celle de l'agent recenseur est manquante, illisible ou suspecte. Le logiciel de nettoyage remplace la valeur par la suggestion de l'opérateur lors du nettoyage.

2) Standardisation : les fautes d'orthographe, les abréviations et les réponses synonymes sont remplacées par la forme standard des réponses lors du nettoyage. Par exemple, c.o.e. dans la colonne RELIGION est remplacé par Church of England.

3) Vérification: les données sont soumises à plusieurs vérifications. Quand une exception est détectée, par exemple dans le cas d'une personne mariée de moins de 12 ans, le dossier suspect est renvoyé au centre d'origine avec un message d'erreur pour être révisé.

Logiciel Rules

L'étape de standardisation est régie par un ensemble de règles définies par le système Rules, logiciel élaboré par l'IRCS et qui permet au projet de définir la forme standard des réponses les plus communes et de préciser la façon de standardiser les autres réponses.

Le système Rules présente à l'équipe de nettoyage toutes les réponses uniques préconisées pour une question donnée ainsi que leur fréquence. L'équipe se sert du logiciel pour préciser les réponses qui sont standard (orthographe et majuscules correctes) et leurs variations. Toutes les variations sont liées à une réponse standard donnée.
4. Codage des données

Le codage consiste à associer chaque réponse à un code correspondant dans une structure de codification. Une structure de codification est un ensemble de codes qui établit dans la mesure du possible une correspondance entre chaque valeur présente dans un champ et un code unique servant de référence. Ce type de structure de codification peut être très précis et ne toucher qu'un seul domaine (par exemple, PROFESSION) ou très large et toucher plusieurs domaines. La structure de codification créée par l'IRCS fournit des codes pour tous les domaines (p. ex. LANGUE, RELIGION, SEXE) couverts par les recensements de 1911 à 1951.

Logiciel Code Management

Le logiciel Code Management de l'IRCS permet à l'équipe de codage de gérer (ajouter/modifier/supprimer) les structures de codification utilisées pour coder les données saisies.

Logiciel Code Mapping System (CMS)

Le logiciel d'attribution automatisée de codes de l'IRCS (Code Mapping System, CMS) permet aux membres de l'équipe de nettoyage d'associer un code à une ou plusieurs réponses standardisées à partir de la structure de codification choisie. Un code est attribué à chaque entrée du répertoire des réponses attendues qui a été constitué au préalable. C'est l'association d'un code à une réponse particulière qui correspond au terme mapping en anglais.

L'établissement de cette correspondance est efficace pour stocker les informations relatives aux codes. Par exemple, si 4000 infirmières sont répertoriées dans la base de données, il suffit d'attribuer une fois le code 12345 à la réponse stadardisée INFIRMIÈRE plutôt que de modifier dans la base les données des 4000 individus qui exercent cette profession.

Le logiciel offre également une fonction de révision, qui permet aux membres autorisés de l'équipe d'améliorer le travail de l'équipe de codage, ainsi qu'une fonction d'approbation utilisée par les superviseurs pour accepter/refuser les correspondances révisées lorsque la valeur n'est pas dans le répertoire des réponses attendues.
5. Géocodage

L'équipe de géocodage IRCS définit une série de polygones qui représentent les unités géographiques du Canada utillisées pour le recensement. Chaque polygone possède son propre code d'identification géographique unique, ou CCRIUID. Le groupe TI élabore un programme qui utilise les fichiers de géoréférencement produits par l'équipe de géocodage pour attribuer un CCRIUID à chaque individu figurant dans la base de données IRCS.
6. Diffusion des données

Les chercheurs auront accès aux données de l'IRCS par l'entremise d'un fichier extrait de la base, étant donné que les CDR gérés par Statistique Canada ne sont pas compatibles avec les fichiers DB2.

Extraction

Le programme d'extraction produit un fichier plat de microdonnées de recensement codées pour une année de recensement particulière. L'information contenue dans le fichier est stockée dans un format commun lisible pour la plupart des outils d'analyse statistique, comme SPSS et SAS. C'est ce fichier qui est appelé fichier CDR dans ce guide.

Les deux fonctions principales du programme d'extraction sont la sélection et le codage. Les données de recensement étant protégées par les lois sur la vie privée, le programme d'extraction supprime toutes les réponses pouvant servir à identifier un individu. En outre, les réponses extraites sont codées avant d'être inscrites dans le fichier plat : le programme d'extraction utilise le système d'attribution automatisée de codes (établi par le sous-système CMS) pour convertir les réponses textuelles en réponses codées. Certaines variables extraites, ne peuvant pas être codées (comme les CCRIUID), sont inscrites telles quelles dans le fichier CDR.

Création de variables dérivées

En plus des microdonnées codées, le fichier d'extraction contient pour chaque individu plusieurs variables dérivées à partir des données de référence. Ces variables sont des identifiants et des numéros séquentiels servant à structurer le contenu du fichier d'extraction. Le groupe TI a élaboré un programme pour produire ces variables et les stocker dans la base de données avant qu'elles soient traitées par le programme d'extraction.

Conclusion

Les logiciels sont essentiels à la réussite de l'IRCS. Le projet a élaboré un ensemble d'outils intégrés pour traiter les images numériques des questionnaires de recensement. Les programmes de visualisation intelligente d'images ont augmenté l'efficacité du processus d'informatisation des données en reliant entre elles les différentes étapes de la saisie de données. Le logiciel SPIDER de l'IRCS est un outil novateur qui simplifie énormément la collecte de données de recensement à partir d'images numérisées. L'équipe a également créé un logiciel pour échantillonner les images des bobines existantes et pour nettoyer et utiliser les données issues de ces images.