IRCS Header

1911 Census


 

 

Les principes de codage


Définition

Dans ce document, le terme code désigne la valeur numérique ou le symbole utilisé pour représenter une donnée. Le terme codage désigne l'action consistant à convertir une information en son code.

Le codage, un aperçu d'ensemble1:

Pourquoi coder ? Le codage des réponses sert à réduire le nombre de valeurs possibles pour chaque variable afin que l'analyse soit pertinente.

Dans le cas le plus extrême, chaque individu donnerait une réponse différente. Avec autant de valeurs que de réponses, il serait statistiquement impossible d'expliquer les différences entre individus pour cette variable, ni d'utiliser celle-ci comme variable indépendante puisqu'elle saturerait le modèle de variables nominales pour chaque réponse différente.

Au minimum, les données de recensement transcrites comportent des fautes d'orthographe, des variations orthographiques et des abréviations : cela ne représente pas de vraies différences. On peut donc attribuer avec confiance le même code à merchant, marchant et MCHT.

Le codage sert aussi à faciliter la tâche aux programmes d'analyse statistique, qui traitent plus facilement les données numériques que les lettres. En outre, une petite quantité de codes peut être stockée de façon plus compacte qu'une grande quantité de réponses alphabétiques différentes. La raison principale du codage est cependant tout autre : il s'agit de classer ensemble des réponses semblables à des fins d'analyse.

À qui sert le codage ? Comme le codage des réponses qualitatives sert avant tout à permettre une analyse statistique de l'information, les concepteurs des séries de codes à destination des données d'usage public doivent tenir compte des utilisateurs et des analyses que ces derniers peuvent tirer des données. Les chercheurs qui se servent des codes ont en fait deux objectifs connexes :

1. La production de variables indépendantes pour l'analyse
2. La sélection de sous-populations en fonction de la valeur d'une variable.

Il n'est pas possible de prévoir les analyses que les chercheurs effectueront ni les groupes qu'ils souhaiteront choisir. Par conséquent, il faut créer des codes pour le plus grand nombre de réponses possible, les chercheurs pouvant toujours combiner les codes s'ils trouvent les classifications existantes trop étroites. Pour ne pas leur donner trop de travail, on évitera cependant de créer des groupes qui doivent toujours être combinés à d'autres ou une structure de codage trop complexe. En cas d'intérêt marqué, les chercheurs désirant reclasser l'information peuvent consulter les réponses d'origine. En somme, le codage doit équilibrer entre le besoin de précision et une certaine concision.

L'approche de codage de l'IRCS

Les deux lignes directrices régissant la création des codes de l'IRCS sont la compatibilité et la souplesse.

Puisque l'informatisation couvre plusieurs recensements, l'équipe s'est efforcé de créer des codes standardisés qui s'appliquent à toutes les années, dans le but d'assurer la plus grande cohérence possible entre les codes utilisés pour enregistrer les réponses.

Nous avons ainsi élaboré des séries de codes compatibles d'un recensement à l'autre, afin de faciliter la recherche à partir de nos données. Les comparaisons entre années de recensement sont facilitées, les chercheurs n'ayant pas besoin de codes multiples pour analyser les variables présentes d’un recensement à l’autre.

________________________
1 Cette section provient d'un rapport de Evan Roberts du Minnesota Population Center. Nous remercions Evan d'autoriser l'IRCS à se servir de son rapport.