Les pratiques de standardisation et de code mapping
Standardisation
La standardisation, qui suit la saisie des données, a pour but de corriger les fautes d'orthographe, les abréviations et les incohérences de chiffres dans les réponses numérisées. Elle consiste aussi à traduire en anglais les réponses données en français. Ainsi, dans la colonne État civil, l'entrée Jmais marié serait remplacée par Jamais marié. Bien que l'objectif de la standardisation soit de réduire la quantité de valeurs différentes pour faciliter l'attribution de codes par association (mapping), il est aussi important de préserver l'intégrité des réponses textuelles. C'est pourquoi Jmais marié est remplacé par Jamais marié mais pas par Célibataire. Quatre codeurs participent au processus de standardisation, qui est réalisé au moyen de plusieurs logiciels créés par l'IRCS pour standardiser et associer les données.
Chaque colonne comporte plusieurs exemples d'orthographes variées pour une même réponse. Par exemple, dans la colonne Langue, on a vu pour la réponse English les variantes Eglish, Englis ou Enlish ainsi que des abréviations, comme Eng ou Engl. Il est aussi arrivé qu'une majuscule soit utilisée dans certains cas et pas dans d'autres. Ainsi, dans la colonne Pays, on a vu Canada, canada et CanadA. Comme le logiciel interprète toutes ces réponses comme des valeurs différentes, il a fallu les nettoyer pour obtenir une même valeur. Dans certains cas, la standardisation a permis de réduire le nombre de valeurs de plusieurs milliers à quelques centaines, ce qui facilite le processus d'attribution automatisée de codes.
En plus de l'orthographe et des abréviations, la standardisation vise la cohérence du format des réponses numériques. Il peut arriver qu'une virgule soit utilisée à la place d'un point ou qu'un espace, une lettre ou un symbole soit redondant ou placé au mauvais endroit. Par exemple, dans la colonne Annual Earnings, la valeur $500, 69 est modifiée pour 500.69. Le logiciel est conçu pour reconnaître ce format numérique standard et pour coder automatiquement ces valeurs, ce qui fait gagner bien du temps.
Exemples fréquents de standardisation :
a. Correction de fautes d'orthographe et de format
Correction de Farmyr, Afrmer, Famrer, farmer et farmr par la valeur standardisée Farmer.
$509,45 standardisé sous la forme 509.45.
b. Standardisation des réponses
Conversion/remplacement de COE, C of Eng, English Church, Prot COE, Église d’Angleterre, etc., par la valeur standardisée Church of England.
c. Traduction des réponses
Les réponses en français ont été traduites en anglais dans tous les cas sauf lorsqu'il était impossible d'obtenir un sens unique en anglais pour une réponse textuelle en français. Par exemple, dans la colonne Parenté avec le chef de ménage, Belle-mère peut désigner la mère du mari ou de la femme (soit mother-in-law) ou la femme du père (soit step-mother) ; on l'a donc laissée en français.
Attribution automatisée de codes (Code Mapping)
L'attribution automatisée de codes, ou code mapping, est un processus qui s'est déroulé en trois étapes. Dans un premier temps, quatre employés de l'Université d'Ottawa ont associé des codes à des valeurs. Pendant ce temps, un autre membre de l'équipe a traduit les descriptions des codes en français. Ensuite, plusieurs experts ont examiné les valeurs et, s'il y a lieu, en ont suggéré de nouvelles pour le répertoire des valeurs et des codes correspondants. Une fois l'étape de révision terminée, toutes les suggestions ont été évaluées par les membres principaux de l'IRCS, qui ont choisi et approuvé le code le plus pertinent parmi les variantes proposées. Le logiciel a permis d'effectuer le suivi de ce processus. Les réponses ont été filtrées pour être codées et ont été réparties en cinq rubriques, sans correspondance proposée1, avec une seule valeur2, correspondance avec plusieurs valeurs3, attribution automatisée de code4, approbation5.
L'objectif du code mapping est de relier les réponses à un code numérique. Comme dans bien des cas les correspondances sont faites automatiquement, les réponses qui restent sont celles que l'ordinateur n'a pas pu relier à un code, généralement parce que l'orthographe de la valeur diffèrent de la description du code ou parce qu'il s'agit d'une réponse illogique ou inattendue à la question de recensement.
Si, au moment de l'établissement des correspondances une valeur ne peut pas être associée à un code de la série de codes d'origine, les codeurs ont deux choix. Ils peuvent, selon le cas, créer un code pour tenir compte de cette valeur ou bien renoncer à coder6. Par exemple, dans la colonne Pays, un grand nombre de codes ont été créés pour tenir compte de la diversité des villes canadiennes citées comme lieu de naissance. En revanche, si la valeur n'apparaît comme une réponse logique à la question posée, elle doit être considérée comme incodable. Ainsi, la valeur Père dans la variable Indicateur de statut professionnel serait considérée comme incodable.
Toutes les valeurs se voient attribuer automatiquement un code, sauf les valeurs numériques, dont le codage automatique préalable a été fait par le logiciel. Une valeur numérique qui apparaît par erreur dans une colonne de texte, comme Relation, est considérée comme incodable.
Enfin, les valeurs contenant un ? ou un ! et ne pouvant pas être déchiffrées sont considérées comme illisibles, dans la mesure où ces signes ont été utilisés au moment de la saisie de données pour indiquer des lettres et des chiffres illisibles.
_____________________________
1 Aucun code n'a été proposé pour cette variable. Elle apparaît sous la forme d'une cellule bleue dans les champs de données.
2 Un seul code a été proposé pour cette variable. Elle apparaît sous la forme d'une cellule jaune dans les champs de données.
3 Plus d'un code a été proposé pour cette variable. Elle apparaît sous la forme d'une cellule orange dans les champs de données.
4 Le système a compris l'information et lui a attribué un code lui-même.
5 Le code est approuvé par un des coordinateurs de projet.
6 Tous les nouveaux codes créés sont recensés dans un répertoire des codes.