Chiffres de population et des logements - Faits saillants en tableaux, Recensement de 2011

Qualité des données

Le Recensement de 2011 a été une entreprise complexe et de grande envergure. Bien que l'on ait déployé des efforts considérables pour assurer le respect de normes élevées au cours des opérations de la collecte et du traitement, il est inévitable que les estimations résultantes comportent quelques erreurs. Les utilisateurs des données du recensement doivent savoir que ces erreurs existent et doivent avoir une idée générale de leurs principales composantes afin d'être en mesure de déterminer l'utilité des données produites et d'évaluer les risques qu'ils courent en tirant des conclusions ou en prenant des décisions à partir de ces données.

Des erreurs peuvent se produire pratiquement à toutes les étapes du recensement, depuis la préparation du matériel de la collecte jusqu'au traitement des données, en passant par l'établissement des listes de logements et la collecte des données. Certaines erreurs, qui surviennent par hasard, ont tendance à s'annuler lorsque les réponses fournies par les répondants sont agrégées pour un groupe assez important. Dans le cas d'erreurs de cette nature, l'estimation correspondante sera d'autant plus précise que le groupe visé sera grand. C'est pourquoi on conseille aux utilisateurs de faire preuve de prudence lorsqu'ils utilisent des estimations relatives à de petits groupes. Toutefois, certaines erreurs peuvent survenir de façon plus systématique et introduire un « biais » dans les estimations. Comme ce biais persiste quelle que soit la taille du groupe pour lequel les réponses sont agrégées et comme il est particulièrement difficile d'en mesurer l'importance, les erreurs systématiques posent pour la plupart des utilisateurs de données des problèmes plus graves que les erreurs aléatoires mentionnées plus haut.

En ce qui concerne les données du recensement en général, les principaux types d'erreurs sont les suivants :

  1. les erreurs de couverture qui se produisent lorsqu'on oublie des logements ou des personnes, qu'on les dénombre à tort ou qu'on les compte plus d'une fois;
  2. les erreurs dues à la non réponse qui surviennent lorsqu'on n'a pu obtenir de réponses d'un certain nombre de ménages ou de personnes en raison d'une absence prolongée ou pour toute autre raison ou bien lorsqu'on n'a pu obtenir de réponses pour un certain nombre de questions dans un questionnaire rempli;
  3. les erreurs de réponse qui surviennent lorsque le répondant, ou parfois le recenseur, a mal interprété une question du recensement et a inscrit une mauvaise réponse ou s'est tout simplement trompé de case de réponse;
  4. les erreurs de traitement qui peuvent se produire à diverses étapes, notamment lors de la saisie des données, lorsque les réponses figurant au questionnaire du recensement sont transférées dans un format électronique par un système de reconnaissance optique de caractères ou par des préposés à l'entrée des données; lors du codage, lorsque les réponses en lettres sont converties en codes numériques; lors de l'imputation, lorsqu'une réponse « valide », mais pas nécessairement exacte, est insérée dans un enregistrement par l'ordinateur pour remplacer une réponse manquante ou « invalide » (« valide » et « invalide » renvoient à la cohérence de la réponse, compte tenu des autres renseignements compris dans l'enregistrement).

Les types d'erreur mentionnés plus haut ont tous une composante aléatoire et une composante systématique. Ces composantes peuvent être importantes.

Erreurs de couverture

Les erreurs de couverture ont une incidence directe sur la précision des chiffres du recensement, c'est à dire sur la taille des divers univers du recensement : la population, les familles, les ménages et les logements. Bien que des mesures aient été prises pour corriger certaines erreurs identifiables, les chiffres définitifs sont toujours entachés d'une certaine erreur parce que des personnes ou des logements ont été omis, dénombrés à tort ou comptés plus d'une fois.

L'omission de logements ou de personnes se traduit par un sous dénombrement. Des logements peuvent être oubliés en raison soit d'une mauvaise interprétation des limites des unités de collecte, soit qu'ils n'ont pas l'apparence de logements ou soit qu'ils semblent inhabitables. Des personnes peuvent être omises parce que leur logement est omis ou classé comme inoccupé, ou parce que le répondant a mal interprété les instructions concernant les personnes à inclure dans son questionnaire. Enfin, certaines personnes peuvent être omises parce qu'elles n'ont pas de domicile habituel et qu'elles n'ont pas passé la nuit du recensement dans un logement.

Le dénombrement erroné ou le double compte de logements ou de personnes se traduit par un surdénombrement. Il peut y avoir surdénombrement de logements lorsque des constructions impropres à l'habitation sont classées comme logements (dénombrement erroné), lorsqu'il existe une certaine ambiguïté au sujet des limites des unités de collecte ou lorsque des unités d'habitation (par exemple, des chambres) sont comptées séparément plutôt que d'être considérées comme faisant partie d'un seul logement (double compte). Les personnes peuvent être comptées plus d'une fois parce que leur logement a été compté deux fois ou parce que les lignes directrices concernant les personnes à inscrire dans le questionnaire ont été mal interprétées. À l'occasion, il arrive qu'une personne ne faisant pas partie de l'univers de la population du recensement, comme un résident étranger ou une personne fictive, soit dénombrée à tort. En moyenne, le surdénombrement est moins susceptible de se produire que le sous dénombrement; les chiffres des logements et des personnes sont donc probablement légèrement sous estimés.

Pour le Recensement de 2011, trois études permettent de mesurer l'erreur de couverture. Au cours de l'Enquête sur la classification des logements, les logements initialement classés comme inoccupés sont revisités pour vérifier s'ils étaient effectivement inoccupés le jour du recensement. Parallèlement, les logements classés comme non répondants au recensement sont revisités pour déterminer le nombre de résidents habituels et leurs caractéristiques. Les chiffres définitifs du recensement des logements et des particuliers sont ajustés pour compenser pour les logements qui étaient classés inoccupés par erreur et pour les logements classés comme non répondants. En dépit de ces ajustements, les chiffres définitifs peuvent tout de même être entachés d'un certain sous-dénombrement. Le sous dénombrement tend à être plus élevé pour certains segments de la population comme les jeunes adultes (plus particulièrement ceux de sexe masculin) et les personnes récemment immigrées. L'Étude de la contre-vérification des dossiers permet de mesurer le sous-dénombrement résiduel pour le Canada, de même que pour chaque province et chaque territoire. L'Étude sur le surdénombrement du recensement a pour objet d'étudier les erreurs de surdénombrement dues aux personnes dénombrées plus d'une fois. Ensemble, les résultats de l'Étude de la contre-vérification des dossiers et de l'Étude sur le surdénombrement du recensement fournissent une estimation du sous-dénombrement net.

Autres sources d'erreurs

Alors que les erreurs de couverture ont une incidence sur le nombre d'unités comprises dans les différents univers du recensement, d'autres erreurs influent sur les caractéristiques de ces unités.

Il est parfois impossible d'obtenir une réponse complète d'un ménage, même si le logement a été classé comme étant occupé. Il se peut que les membres du ménage aient été absents pendant toute la période de la collecte du recensement ou, en de rares occasions, que le membre responsable du ménage ait refusé de remplir le questionnaire. Il arrive plus souvent que le questionnaire soit retourné par la poste ou soumis par Internet, mais qu'il y ait des questions laissées sans réponse. Des efforts sont déployés afin d'obtenir un questionnaire le plus complet possible. Une analyse est faite pour détecter les cas spécifiques de non-réponses partielles et des suivis par interviews sont tentés afin d'obtenir l'information manquante. Malgré tout, il existe toujours un petit nombre de réponses manquantes à la fin de la collecte. Bien que les réponses manquantes soient éliminées en cours de traitement en remplaçant chacune d'elles par la réponse correspondante figurant dans un enregistrement « similaire », il est possible que certaines erreurs d'imputation s'y glissent. Cela est particulièrement grave lorsque les personnes non répondantes diffèrent des répondants sous certains aspects; en effet, cette procédure introduit un biais dû à la non réponse.

Même lorsqu'une réponse est obtenue, il se peut qu'elle ne soit pas tout à fait exacte. Il est possible que le répondant ait mal interprété la question ou ait donné une réponse au jugé, surtout lorsqu'il répondait pour le compte d'un autre membre du ménage, qui était peut être absent. Il est aussi possible que le répondant ait inscrit sa réponse au mauvais endroit sur le questionnaire. Ces erreurs sont désignées sous le nom d'erreurs de réponse. Bien que ces erreurs surviennent d'ordinaire parce que les répondants ont fourni des renseignements inexacts, elles peuvent aussi résulter d'erreurs commises par les recenseurs qui ont rempli certaines parties du questionnaire, par exemple, lors d'un suivi pour obtenir une réponse manquante.

Certaines questions du recensement nécessitent une réponse en toutes lettres. Pendant le traitement, on attribue un code numérique à ces réponses. Il est possible que des erreurs de codage se produisent lorsque la réponse écrite est ambiguë, incomplète ou difficile à lire, ou lorsque la liste des codes est longue (p. ex., principal domaine d'études, lieu de travail). L'étape formelle du contrôle qualitatif permet de cerner et de rectifier les erreurs de codage et d'en réduire le nombre. Un échantillon continu des réponses est codé indépendamment une deuxième fois. La résolution des incohérences entre les premier et deuxième codages détermine la nécessité, s'il y a lieu, de coder à nouveau l'unité de travail. Les tâches de codage du recensement sont maintenant automatisées, ce qui a pour conséquence de réduire le nombre d'erreurs de codage.

Les images des pages des questionnaires sont numérisées et les renseignements présents sur ces images sont saisis dans un fichier informatique. Afin de s'assurer que le nombre d'erreurs de saisie de données se retrouve en deçà des seuils admissibles, on saisit de nouveau un échantillon de réponses. Une analyse des deux saisies est faite et les résultats insatisfaisants sont identifiés et corrigés par une dernière saisie.

Les données font l'objet de vérifications qui consistent à les soumettre à une série de contrôles informatiques visant à relever les réponses manquantes ou incohérentes. À l'étape de l'imputation, on substitue à ces dernières des réponses déduites à partir des autres données de l'enregistrement ou des réponses tirées d'un enregistrement donneur similaire. L'imputation permet d'obtenir une base de données complète dont les données correspondent aux chiffres du recensement et facilitent les analyses multidimensionnelles. Même si des erreurs peuvent être introduites à l'étape de l'imputation, les méthodes utilisées ont fait l'objet de tests rigoureux visant à réduire au minimum les erreurs systématiques.

Diverses études sont réalisées afin d'évaluer la qualité des réponses obtenues dans le cadre du Recensement de 2011. Ainsi, on a calculé les taux de non réponse et les taux de rejet au contrôle pour chaque question. Ces taux peuvent permettre de déterminer le potentiel d'erreurs dues à la non réponse et d'autres types d'erreurs. De même, les totalisations établies à partir des données du Recensement de 2011 ont été ou seront comparées avec les estimations correspondantes obtenues à partir des données des recensements précédents, des enquêtes échantillon (comme l'Enquête sur la population active) et de divers dossiers administratifs (comme les registres des naissances et le cadastre municipal). Ces comparaisons peuvent permettre de cerner les problèmes de qualité éventuels ou, à tout le moins, de relever les divergences entre les sources.

Outre ces comparaisons entre données agrégées, certaines études de couplage de microdonnées sont menées afin de comparer les réponses de certains particuliers obtenues au recensement à celles d'une autre source de renseignements. Pour un certain nombre de caractéristiques « stables » (comme l'âge, le sexe et la langue maternelle), on compare les réponses obtenues auprès d'un échantillon de personnes à l'occasion du Recensement de 2011 aux réponses obtenues des mêmes personnes à l'occasion du Recensement de 2006.

Pour obtenir de plus amples renseignements sur la qualité des données du recensement, veuillez communiquer avec la Division des méthodes d'enquêtes sociales, Statistique Canada, Ottawa (Ontario), Canada K1A 0T6, ou en composant le 613-951 4783.