![]() |
||||||
|
Contenu archivéL'information indiquée comme étant archivée est fournie aux fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous. |
||||||
|
2. Traitement des données du recensement2.1 IntroductionCette étape du processus du recensement consiste à assurer le dépouillement de tous les questionnaires remplis, depuis la saisie des données jusqu’à la constitution d’une base de données d’extraction exacte et complète. Il s’agit ici de la saisie manuelle et automatisée des données, de l’imagerie des questionnaires, du contrôle, de la correction des erreurs, du codage, de l’imputation et de la pondération. La base de données finale a été transférée au Projet d’évaluation de la qualité des données, en vue de la détermination de la qualité globale des données, et au Projet de la diffusion, en vue de la production et de la commercialisation des produits et services du recensement de 2001. Dans le reste du présent chapitre, chaque opération de traitement des données est passée en revue. Une innovation importante a été apportée au recensement de 2001; il s’agit de la création d’un système d’extraction d’images donnant accès aux images de tous les questionnaires et de tous les registres des visites (voir la section 2.3), de façon à éliminer la manutention de milliers de boîtes et de documents papier lors des processus subséquents nécessitant la consultation de l’original des formules du recensement, comme lors des recensements antérieurs. 2.2 Dépouillement régionalL’équipe du dépouillement régional était responsable de la saisie de l’information figurant dans les questionnaires en format électronique pour les systèmes de traitement ultérieurs ainsi que des recherches manuelles et du codage manuel des réponses aux questions sur l’industrie et à la profession tirées des questionnaires 2B. Étant donné l’énorme volume de questionnaires et d’information à saisir (plus de 4 milliards de frappes), la Tâche du dépouillement régional, depuis 1981, confie le travail en sous-traitance à l’Agence des douanes et du revenu du Canada (ADRC), anciennement Revenu Canada. Celle-ci utilise son réseau de systèmes, de ressources et de personnel pour saisir et coder les données du recensement. Ce partenariat permet à l’équipe du recensement de réaliser des économies en mettant à profit le personnel qualifié et l’infrastructure déjà en place à l’ADRC. En ce qui a trait à la qualité des données, il lui permet en outre de bénéficier de l’expérience acquise par l’ADRC dans le cadre du dépouillement des questionnaires des recensements antérieurs. Lors du recensement de 2001, environ 2 800 employés de l’ADRC ont prêté le serment d’office et de discrétion prévu par la Loi sur la statistique en vue d’effectuer les tâches du recensement. Aux termes de cette loi, les employés de l’ADRC sont soumis aux mêmes règles et règlements que les employés de Statistique Canada. Une fois les activités de collecte relatives à un secteur de dénombrement (SD) terminées, les questionnaires, les cartes géographiques et les registres des visites connexes étaient acheminés dans des boîtes de SD des sous-sections de la collecte sur le terrain vers un des huit centres fiscaux de l’ADRC désignés du pays. La première étape consistait à préparer les questionnaires remplis en vue de la saisie des données. Traditionnellement, elle avait pour objet d’attribuer manuellement des codes aux réponses en lettres fournies par les répondants. En 2001, la plupart des réponses en lettres étaient converties en codes par des systèmes automatisés (voir la section 2.5). Les seules réponses en lettres devant être codées manuellement lors du recensement de 2001 étaient celles du questionnaire complet (2B) portant sur les questions relatives à l’industrie et la profession. Des travaux de recherche ont été entrepris en vue d’automatiser le codage de ces réponses et on s’attend à disposer d’un système automatisé opérationnel pour le recensement de 2006. Les réponses aux questions sur l’industrie ont été codées à l’ADRC conformément au Système de classification des industries de l’Amérique du Nord (SCIAN), que Statistique Canada utilise comme document normatif depuis quelques années. Le SCIAN a été élaboré afin de fournir au Canada, aux États-Unis et au Mexique un cadre de référence commun pour la production de statistiques sur l’industrie aux termes de l’Accord de libre-échange nord-américain (ALENA). Cela représente une modification au codage des réponses relatives à l’industrie qui, lors du recensement de 1996, avaient été codées à l’aide de la Classification type des industries (CTI) de 1980. Afin de permettre l’établissement de comparaisons longitudinales, les réponses recueillies sur les questionnaires complets (2B) à la question sur l’industrie du recensement de 2001 sont également codées à l’aide de la CTI de 1980 dans le cadre du codage automatisé (voir la section 2.5). Une fois que les questionnaires avaient été reçus et enregistrés à un des centres fiscaux de l’ADRC et que les codes d’industrie et de profession avaient été attribués, l’étape suivante consistait à trier, étiqueter et mettre en lots les questionnaires en vue de la saisie des données. L’étiquette apposée sur chacun des questionnaires portait un numéro de séquence unique destiné à permettre de contrôler le cheminement du questionnaire tout au long des opérations à l’ADRC. Pour la première fois, l’étiquette comportait aussi un code à barres ayant pour objet de faciliter le balayage du questionnaire lors de la Tâche de l’imagerie (voir la section 2.3). La saisie des données se faisait ensuite selon la méthode traditionnelle de l’entrée au clavier. Afin de vérifier la précision de l’opération de saisie, on saisissait de nouveau les données d’un échantillon de questionnaires dont les données avaient déjà été saisies. Des statistiques sur le contrôle de la qualité étaient produites en comparant entre eux les deux ensembles de données saisies. Comme on peut s’y attendre, l’entrée des données au clavier à partir des questionnaires peut se traduire par des erreurs, attribuables à diverses raisons : erreur de saisie, réponses difficiles à lire ou mal indiquées sur les questionnaires ou réponses omises par l’opérateur de saisie des données. La vérification des entrées permet de réduire les erreurs le plus possible. Au fur et à mesure de leur saisie, les données étaient transmises en temps réel sur des lignes de communication dédiées à l’ordinateur de l’ADRC à Ottawa. À l’intérieur d’un délai de 24 heures, les données étaient ensuite transférées sur des cartouches magnétiques qui étaient livrées par un transporteur cautionné à Statistique Canada, où elles étaient chargées dans l’ordinateur central. Les questionnaires étaient enfin rassemblés dans leurs boîtes de SD en vue de leur expédition au centre de dépouillement de Statistique Canada à Ottawa. Une fois que les données avaient été saisies et transférées à Statistique Canada et que celui ci avait accusé réception de toutes les données, l’ADRC n’avait plus aucune donnée du recensement en sa possession. 2.3 ImagerieLors des recensements antérieurs, les étapes du dépouillement qui nécessitaient la consultation des questionnaires et des registres des visites (RV) se faisaient à l’aide des documents papier. En 2001, on a éliminé la nécessité de manipuler les documents papier en créant (par balayage) une image électronique de tous les questionnaires et RV dès leur réception au centre de dépouillement du recensement en provenance des centres fiscaux de l’Agence des douanes et du revenu du Canada (ADRC). Le personnel des opérations ultérieures pouvait ensuite accéder aux images des questionnaires et des RV à l’aide d’un système d’extraction d’images, plutôt que d’avoir à utiliser les documents papier. À leur arrivée au centre de dépouillement du recensement de 2001, les boîtes de secteurs de dénombrement (SD) étaient enregistrées et les documents étaient préparés en vue du balayage. Les images électroniques des 13 millions de documents (en majorité des questionnaires) ont été créées à l’aide de 15 scanneurs à haute vitesse fonctionnant cinq jours par semaine, pendant deux quarts de travail par jour. L’identificateur géographique nécessaire pour identifier chacune des images de document était automatiquement attribué à partir du code à barres figurant sur l’étiquette apposée lors des opérations de saisie des données à l’ADRC (voir la section 2.2). Un contrôle qualitatif était effectué afin de vérifier que chaque document comportait le nombre approprié de pages et que le nombre de questionnaires de chaque type était exact pour chacun des SD. Une opération spéciale était prévue afin de résoudre les problèmes qui se posaient. Les images étaient alors enregistrées sur des disques optiques à des fins de consultation ultérieure et d’archivage. Elles étaient aussi conservées sur une mémoire cache magnétique afin qu’on puisse y avoir accès immédiatement pour les besoins des activités de la Tâche de la vérification interactive. 2.4 Vérification interactiveL’objectif principal de la Vérification interactive était d’identifier et de corriger les erreurs dans les données dont la résolution exigeait de se référer aux images des questionnaires et/ou des registres des visites. Les données saisies étaient soumises à un ensemble détaillé de règles de vérification pour identifier des erreurs telles que des personnes manquantes ou comptées plus d’une fois dans un ménage; un dénombrement incorrect des résidents étrangers ou temporaires; des ménages associés aux mauvais questionnaires; ou une mauvaise classification des logements (occupés ou inoccupés). Un examen exhaustif de l’information des formules associées à chacun des problèmes était effectué pour déterminer la correction appropriée. Dans certains cas il fallait ajouter et/ou éliminer des personnes ou des logements. Lorsque les cartouches renfermant les données étaient reçues de l’Agence des douanes et du revenu du Canada (ADRC), elles étaient chargées sur les ordinateurs de Statistique Canada en vue de la Vérification interactive. Une série de contrôles structurels automatisés étaient alors exécutés, surtout pour vérifier les renseignements inscrits par le recenseur sur la page couverture des questionnaires. Ces contrôles avaient entre autres pour objet d’apparier les types de questionnaire et les types de ménage, de contre-vérifier le nombre de questionnaires, de contre-vérifier le nombre de personnes dénombrées et de vérifier si les identificateurs géographiques étaient bien uniques. Les données sur le revenu tirées des questionnaires 2B étaient aussi soumises à certains contrôles visant à déceler les anomalies et à les soumettre aux spécialistes des données sur le revenu. Tous les contrôles étaient effectués par secteur de dénombrement (SD). Les erreurs étaient balisées, puis corrigées en se reportant aux images des questionnaires et des registres des visites (RV) du SD visé. Les corrections apportées aux données électroniques étaient faites à l’aide d’un système interactif sur micro-ordinateur. Certaines corrections étaient également notées sur les images de questionnaire ou sur les registres de visite à l’aide d’un processus électronique. Une fois que la boîte de SD avait été soumise à tous ces contrôles, on procédait à une vérification manuelle et automatique des identificateurs géographiques transcrits par le recenseur de la carte de SD au questionnaire et au RV. La Vérification interactive prévoyait aussi un dépouillement spécial afin d’assurer que les Canadiens qui résidaient à l’extérieur du Canada le jour du recensement (personnes à bord des navires de la garde côtière, des navires de guerre et des navires marchands battant pavillon canadien, membres du personnel diplomatique et membres des Forces armées) avaient été dénombrés correctement. La dernière étape de la Vérification interactive consistait à reformater les données et à les acheminer aux dernières étapes du dépouillement, c.-à-d. le Codage automatisé ainsi que le Contrôle et imputation. 2.5 Codage automatisé et codage interactifLe codage automatisé consistait à convertir en codes les réponses en lettres saisies sur les questionnaires complets lors du dépouillement régional (voir la section 2.2), à l’aide d’un fichier de référence ou d’une structure de classification automatisé contenant des séries de mots ou d’expressions et leur code numérique correspondant. Bien que la majorité des réponses en lettres puissent être codées de façon entièrement automatique, certaines réponses ne peuvent être appariées. Des systèmes de codage interactifs pour PC sont prévus pour aider des codeurs ayant reçu une formation spéciale et des spécialistes à attribuer un code approprié à toutes les réponses non appariées en examinant les réponses données à d’autres questions, lesquelles se rapportaient parfois à d’autres membres du ménage. Ont été soumises au codage automatisé les réponses en lettres aux questions suivantes du questionnaire complet (2B) :
Une fois codées toutes les réponses associées à une variable, les données étaient acheminées à l’étape du Contrôle et imputation. 2.6 Contrôle et imputationLes données recueillies lors de toute enquête comportent des omissions ou des incohérences. Ces erreurs peuvent survenir lorsque les répondants fournissent des réponses incorrectes ou incomplètes aux questions ou encore lors du traitement. Par exemple, un répondant peut être réticent à répondre à une question, peut ne pas se souvenir de la bonne réponse ou peut mal comprendre la question. De son côté, le personnel du recensement peut coder les réponses incorrectement ou peut faire d’autres types d’erreurs au cours du traitement. Une des premières tâches de l’opération de contrôle et d’imputation consiste à vérifier si la taille du ménage est indiquée pour tous les logements classés comme étant « occupés ». Pour les logements occupés associés non pas à un questionnaire ordinaire (formule 2A ou 2B) mais à une formule 4 établie en cas de non-réponse, la première mesure prise à l’opération du contrôle et de l’imputation était de s’assurer que la taille du ménage était valide. Si la taille du ménage était « inconnue », la procédure consistait à imputer la taille du ménage à partir du plus proche voisin. Cependant, une nouvelle procédure a été introduite en 2001 afin d’estimer la taille du ménage dans le cas des logements associés à une formule 4. Pour de plus amples renseignements, se reporter au chapitre 7 portant sur l’Étude sur la classification des logements. L’épuration définitive des données, faite à l’étape du contrôle et de l'imputation, a été presque entièrement automatisée. Elle consistait à appliquer une série de règles de contrôle détaillées, qui permettaient de repérer les réponses manquantes ou incohérentes. Ces dernières étaient la plupart du temps corrigées en modifiant par imputation la valeur du plus petit nombre de variables possible. L’imputation était faite à l’aide des méthodes dites « déterministe » et/ou « hot deck à changements minimaux ». L’imputation déterministe consiste à corriger les erreurs en inférant la valeur appropriée à partir des réponses à d’autres questions. Quant à l’imputation « hot deck à changements minimaux », on choisit un enregistrement qui comporte un certain nombre de caractéristiques communes à celles de l’enregistrement qui contient une erreur. On emprunte les données de cet enregistrement « donneur » et on les utilise pour changer le plus petit nombre possible de variables nécessaires pour résoudre tous les rejets au contrôle. Deux systèmes automatisés différents ont été utilisés pour mener à bien ce traitement. Le système NIM (Nearest-neighbour Imputation Method), qui a été élaboré en vue du recensement de 1996 pour faire le contrôle et l'imputation des caractéristiques démographiques de base telles que l'âge, le sexe, l'état matrimonial, l'union libre et le lien avec la Personne 1, a été amélioré en vue du recensement de 2001 et implanté dans un système appelé SCANCIR (Système canadien de contrôle et d'imputation du recensement). Il permet maintenant d'effectuer le contrôle et l'imputation d'autres variables telles que l'industrie, le lieu de travail, le mode de transport et la mobilité. Tout comme en 1996, le système SCANCIR permettait de soumettre les réponses à des contrôles plus détaillés et exacts, tout en réservant les réponses grâce à la méthode d'imputation « hot deck à changements minimaux ». Le système SPIDER (System for Processing Instructions from Directly Entered Requirements), qui a été utilisé pour traiter les autres variables du recensement telles que la langue maternelle, le logement ou le revenu, permet de traduire les exigences des agents spécialisés, déterminées au moyen de tables de décision logique, en modules exécutables. SPIDER fait appel aux imputations déterministe et « hot deck ». 2.7 Ajustements de la couverture en fonction des logements inoccupés et des logements non répondantsL’Étude sur la classification des logements (ÉCL) consiste à prendre un échantillon de logements ayant été inscrits comme étant soit inoccupés ou occupés lors de la collecte. Plus tard, l’ÉCL retourne à ces logements pour déterminer s’ils étaient occupés ou non le jour du recensement, ou s’ils n’auraient pas dû être inscrits parce qu’ils ne correspondaient pas à la définition d’un logement aux fins du recensement. S’il s’avère qu’un logement était occupé, on effectue un de deux ajustements possibles dans la base de données du recensement. Pour les logements inscrits comme étant inoccupés le jour du recensement, on applique une technique d’estimation faisant appel à des « additions aléatoires », afin d’ajouter des logements et des personnes à la base de données du recensement. Au recensement de 2001, 111 628 ménages et 222 720 personnes ont ainsi été ajoutés à la base de données pour tenir compte du nombre estimatif de personnes vivant dans des logements « inoccupés ». Le deuxième ajustement possible a trait aux logements occupés pour lesquels aucun questionnaire du recensement rempli n'a été reçu (c'est-à-dire les logements non répondants) et consiste à créer, dans la base de données du recensement, une nouvelle taille de ménage pour tous ces logements. Au total, 143 681 ménages comptant 317 587 personnes ont été ajoutés à la base de données par suite de cet ajustement. L’ÉCL est la seule étude sur la couverture qui se traduit par l’ajout de ménages et de personnes à la base de données du recensement. En revanche, les trois autres études sur la couverture décrites dans le présent rapport n’entraînent aucun changement à la base de données. Les résultats de ces études influent sur le calcul des chiffres de population officiels de Statistique Canada. Le chapitre 7 renferme des renseignements plus détaillés sur la portée et la méthodologie de l’ÉCL. 2.8 PondérationOn a recueilli des renseignements sur l'âge, le sexe, l'état matrimonial, l'union libre, la langue maternelle et le lien avec la Personne 1 auprès de presque toute la population. Cependant, la majeure partie des renseignements proviennent d'un échantillon de 20 % de la population (un ménage sur cinq) à qui on a livré un questionnaire complet (2B) (voir la section 1.1). On a employé la pondération pour reporter, après le contrôle et l'imputation, l'information fournie par l'échantillon à l'ensemble de la population. La méthode de pondération a fourni des poids qui, à partir des données-échantillon, servaient à produire des estimations. Au recensement de 2001, on a fait appel à une technique que l'on appelle estimation par calibrage ou par régression. Cette procédure consiste à ajuster des poids initiaux égalant environ 5 par le plus petit nombre qui permette de faire correspondre d'aussi près que possible les estimations échantillonnales (p. ex., nombre d'hommes ou de personnes âgées de 15 à 19 ans) aux chiffres de population obtenus à partir des questionnaires abrégés (2A) pour l'âge, le sexe, l'état matrimonial, l'union libre et la taille du ménage. |
|
|||||