Contenu archivé
L'information qui porte la mention « archivée » est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, contactez-nous.
Chapitre 5 – Évaluation et indicateurs de la qualité des données
Table des matières
Dans une enquête par échantillon il y a deux types d'erreur : l'erreur due à l'échantillonnage et l'erreur non due à l'échantillonnage. La première est présente, car on estime une caractéristique en mesurant seulement une partie de la population au lieu de la population au complet. La seconde inclut toutes les erreurs qui ne sont pas liées à l'échantillonnage. Ce genre d'erreur est présent également dans le recensement. Les sections 5.1 et 5.2 présentent un aperçu de chaque type d'erreur pour l'ENM.
Erreur due à l'échantillonnage
L'ENM a pour objectif de produire des estimations pour une série de questions posées pour un large éventail de régions géographiques, allant des très grandes régions (comme les provinces et les régions métropolitaines de recensement) à de très petites régions (comme les quartiers et les municipalités), et pour divers groupes de population comme les peuples autochtones et les immigrants. Ces groupes ont également des tailles variables, notamment lorsque recoupés par région géographique. Ces regroupements sont généralement appelés « domaines d'intérêt ».
Quel que soit le domaine d'intérêt, en supposant un échantillonnage aléatoire, l'erreur d'échantillonnage dépend de plusieurs paramètres : la taille de la population, le nombre de répondants à l'enquête, la variabilité des variables mesurées, la stratification, l'échantillonnage par grappes.
Compte tenu du taux d'échantillonnage d'environ 3 sur 10 et du taux de réponse de 68,6 %, on estime qu'environ 21 % de la population canadienne a participé à l'ENM. Néanmoins, la qualité des estimations dans l'ensemble des domaines pourrait présenter une grande variabilité due, entre autres, à la variabilité dans les taux de réponse d'un domaine à l'autre.
Erreur non due à l'échantillonnage
Hormis l'échantillonnage, plusieurs facteurs peuvent introduire des erreurs dans les résultats de l'enquête. Les répondants peuvent ne pas comprendre les questions et y répondre de façon erronée; des réponses peuvent être entrées de façon incorrecte lors de la saisie et du traitement des données. Ce sont quelques exemples d'erreurs non dues à l'échantillonnage dont on a tenu compte de façon rigoureuse à chaque étape de la collecte et du traitement de façon à en réduire l'impact.
De plus, dans le cadre de toute enquête volontaire autoadministrée, l'erreur due à la non-réponse sur les variables de l'enquête représente une portion importante de l'erreur non due à l'échantillonnage. On distingue la non-réponse partielle (absence de réponse à une ou quelques questions) et la non-réponse totale (absence de réponse à l'enquête parce que le ménage n'a pu être joint ou qu'il a refusé de participer). La non-réponse totale est susceptible de biaiser les estimations tirées de l'enquête, car les non-répondants ont tendance à avoir des caractéristiques qui sont différentes de celles des répondants. Il existe donc un risque que les résultats ne soient pas représentatifs de la population réelle.
Avec un taux de réponse à l'ENM de 68,6 % (voir section 3.5), ce risque est envisagé. Statistique Canada a réalisé plusieurs études, ainsi que diverses simulations, avant et après la collecte, afin d'évaluer le risque de biais potentiel et son ampleur. Plusieurs mesures ont été prises pour en atténuer les effets.
Description des étapes d'évaluation et indicateurs de la qualité des données de l'ENM
Depuis le début de la collecte et jusqu'à l'approbation de la diffusion, les données de l'ENM sont soumises à de nombreuses analyses et plusieurs indicateurs de qualité sont produits. Dans ce processus d'évaluation, ces indicateurs sont analysés pour permettre d'évaluer la qualité des estimations de l'ENM et informer les utilisateurs des limites possibles des estimations le cas échéant. Les principaux indicateurs de la qualité produits et analysés pendant cette évaluation sont :
Taux de non-réponse aux questions : selon le mode de collecte, les caractéristiques démographiques telles que l'âge et le sexe, et la région géographique de résidence des répondants.
Indicateurs de la qualité des réponses fournies : par exemple, les taux de réponse invalides ou impossibles à coder, analysés selon le mode de collecte.
Taux global de non-réponse : combinant la non-réponse des ménages et la non-réponse aux questions; ce taux est pondéré et produit pour différents niveaux géographiques (voir section 6.3).
Indicateurs de biais de non-réponse : à partir de l'appariement des données des recensements de 2006 et de 2011 et de l'échantillon de l'ENM, ces indicateurs permettent d'obtenir des données sur les répondants et les non-répondants à l'ENM et d'évaluer l'écart moyen des estimations de l'ENM à celles produites à partir des données du Recensement de 2006 (voir section 5.5).
Coefficients de variation (CV) : afin d'évaluer la variabilité des estimations.
Il y a trois étapes principales d'évaluation :
Vérification des données de l'ENM au cours de la collecte et du traitement des données : consiste à calculer des indicateurs de qualité des réponses fournies et de la non-réponse aux questions durant toute la période de collecte. L'objectif est de déceler d'éventuelles anomalies et de les corriger pendant la collecte et lors du contrôle et de l'imputation.
Vérification des données après le contrôle et l'imputation : consiste à calculer des indicateurs de qualité de l'ensemble des données à évaluer la qualité des données imputées. L'objectif est d'assurer que le contrôle et l'imputation ont permis de minimiser les biais éventuels tout en assurant la cohérence des données. Pour chaque question de l'ENM, les principaux indicateurs de qualité produits et analysés par les analystes des domaines spécialisés sont le taux d'imputation, le taux de réponse incohérent corrigé et la comparaison des distributions des réponses à une question avant et après l'imputation.
Certification des estimations finales : la certification des estimations finales a été faite après la pondération. Elle consiste à s'assurer que les données sont cohérentes et fiables. À cette étape, les estimations finales sont entre autres comparées à différentes sources de données. Ces comparaisons permettent de déterminer si les estimations de l'ENM sont cohérentes et donc de bonne qualité. Parmi ces autres sources de données, on retrouve principalement les estimations d'autres enquêtes de Statistique Canada pour lesquelles des estimations pour des concepts communs sont disponibles (par exemple, l'Enquête sur la population active), les données des recensements précédents ainsi que les données de certains fichiers administratifs disponibles à Statistique Canada (par exemple, le fichier T1 sur le revenu des familles et la Base de données longitudinale sur l'immigration de Citoyenneté et Immigration Canada). Les projections de population, disponibles pour des sous-groupes de population (par exemple, les projections pour les peuples autochtones), qui s'appuient sur le Recensement de 2006 et sont produites à l'aide de micro-simulations, ont également été comparées aux estimations de l'ENM.
La certification des estimations finales est l'étape de validation ultime qui permet de recommander les données pour la diffusion pour chaque niveau géographique et domaine d'intérêt. Selon l'analyse des indicateurs de qualité et la comparaison des estimations de l'ENM avec d'autres sources de données, la diffusion inconditionnelle, conditionnelle ou la non-diffusion sera recommandée. Dans le cas de diffusion conditionnelle ou de non-diffusion, des notes et des mises en garde appropriées sont associées aux produits et présentées aux utilisateurs.
Veuillez vous référer aux guides de référence associés à chaque domaine d'intérêt pour de plus amples détails sur les indicateurs de qualité et les résultats de l'évaluation (voir annexe 2).
Comparabilité des estimations de l'ENM
Comparabilité des estimations de l'ENM et du Recensement de 2006
Le contenu de l'ENM est similaire à celui du questionnaire complet du Recensement de 2006. Toutefois, plusieurs modifications ont été apportées à certaines questions ou sections du questionnaire. Par exemple, l'ENM mesure une nouvelle composante du revenu (les gains ou pertes en capital) ainsi que les dépenses pour service de garde et pension alimentaire; les questions pour mesurer l'identité autochtone ont été légèrement modifiées; l'univers pour déterminer le statut générationnel a été élargi à l'ensemble de la population et non plus seulement aux personnes de 15 ans et plus. Enfin, la section sur le travail non rémunéré n'a pas été demandée dans l'ENM 2011.
Toute modification significative apportée au contenu ou à la méthode d'enquête peut avoir une incidence sur la comparabilité des données au fil du temps et cela concerne également l'ENM. On ne peut déterminer avec certitude si, et dans quelle mesure, les modifications d'une variable sont attribuables à un changement réel ou découlent d'un biais de non-réponse. C'est pourquoi à toutes les étapes de traitement, de vérification et de diffusion, de nombreux efforts ont été faits pour produire des données ayant un niveau de détail aussi précis, de même que pour assurer que les estimations diffusées de l'ENM sont de bonne qualité selon les normes de Statistique Canada.
La comparaison des estimations de l'ENM aux estimations produits à partir du questionnaire complet du Recensement de 2006 doit être faite avec prudence et tout spécialement lorsque l'analyse s'intéresse à de petits niveaux de géographie. L'utilisateur est invité à utiliser le principal indicateur de qualité de l'ENM fourni, soit le taux global de non-réponse (voir section 6.3), pour juger de la qualité des estimations de l'ENM et évaluer dans quelle mesure les comparaisons sont possibles avec les estimations du questionnaire complet du Recensement de 2006. Les utilisateurs sont également invités à consulter les notes sur la qualité qui accompagnent, au besoin, les produits de diffusion.
Écart entre les chiffres du Recensement de 2011 et les estimations de l'ENM de 2011
Les poids finaux sont choisis de manière à réduire ou à éliminer les différences entre les chiffres de population du Recensement de 2011 et les estimations de l'ENM. Certains écarts peuvent toutefois subsister étant donné que les contraintes de pondération doivent parfois être retranchées. Par ailleurs, puisque l'ajustement final des poids est basé sur les aires de calage et que certaines sont composées de plusieurs petites municipalités, il est possible que des écarts entre les estimations de l'ENM et les chiffres du recensement pour de petites municipalités soient présents. L'écart entre les chiffres de population et les estimations-échantillons se définit comme suit : il s'agit de la différence entre l'estimation de l'ENM et le chiffre du Recensement de 2011 divisé par le chiffre du Recensement de 2011.
La présence d'un écart ou non est une indication de la qualité des estimations de l'ENM. Pour une subdivision de recensement donnée (SDR) ou pour toute autre région géographique, les utilisateurs sont invités à comparer le chiffre du Recensement de 2011 et l'estimation de l'ENM pour la même population cible pour avoir une idée de la qualité des estimations de l'ENM. Plus l'écart est grand, plus le risque d'avoir des estimations de l'ENM de mauvaise qualité est présent.
Pour les SDR comptant 25 000 personnes ou plus, le chiffre du recensement et l'estimation de l'ENM sont pratiquement identiques. Ce n'est pas toujours le cas pour les SDR de taille plus petite.
Trois figures sont présentées à l'annexe 3 pour comparer le chiffre de population du Recensement de 2011 et l'estimation de population de l'ENM au niveau des SDR, pour la même population cible. Les comparaisons sont faites pour les SDR comptant 5 000 à 25 000 personnes, les SDR comptant 1 000 à 5 000 personnes et les SDR comptant 40 à 1 000 personnes. Chaque figure présente le ratio de l'estimation de la population de l'ENM sur le chiffre de population du Recensement de 2011. Si le ratio est égal ou proche de 1, cela signifie que l'estimation de la population de l'ENM est égale au chiffre de population du Recensement de 2011. Si le ratio est supérieur à 1, alors l'estimation de l'ENM est supérieure au chiffre du Recensement de 2011 et si le ratio est inférieur à 1, alors l'estimation de l'ENM est inférieure. Plus le ratio est différent de 1, plus le risque d'avoir des estimations de mauvaise qualité est présent.
L'analyse des trois figures montre que pour les petites SDR, il peut exister des écarts importants entre le chiffre de population du Recensement de 2011 et l'estimation de la population de l'ENM. Ces écarts, comme 'expliqués à la section 4.3, sont dus à la pondération et comme dans toute enquête, peuvent être plus importants pour de petites régions géographiques. Une analyse similaire pour comparer les estimations de l'ENM et les chiffres du Recensement de 2011 pour les questions communes donnerait également une idée de la qualité des estimations de l'ENM.
Indicateurs de biais de la non-réponse
Comme présenté à la section 3.4, plus la non-réponse d'une enquête est élevée, plus le risque de biais de non-réponse est élevé. Durant la collecte, l'objectif du suivi de la non-réponse, et spécialement le suivi auprès du sous-échantillon, était de maximiser le taux de réponse à l'enquête et de contrôler le biais potentiel de non-réponse lié au caractère volontaire de l'enquête.
Pour évaluer la qualité des estimations de l'ENM, en plus des procédures habituelles (voir section 5.3), des indicateurs de biais de la non-réponse ont été calculés et analysés.
Le calcul des indicateurs de biais de la non-réponse a été fait à partir d'un fichier de données appariant les données des recensements de 2006 et de 2011. Ainsi, en utilisant une méthode complexe d'appariement par noms de famille, adresses et dates de naissance, 73 % des répondants au Recensement de 2011 ont pu être liés à leur enregistrement de 2006. Par conséquent, on dispose des données du Recensement de 2006 (incluant les données du questionnaire complet) pour une proportion importante de l'échantillon de l'ENM, que le ménage ait répondu ou non.
Ces données ont ainsi permis, d'une part, de comparer les répondants et les non-répondants de l'ENM pour diverses caractéristiques mesurées en 2006 et d'autre part, de calculer et d'analyser des indicateurs de biais pour évaluer la qualité des estimations de l'ENM. Ces analyses comportent toutefois certaines limites, en raison de la nature du fichier d'appariement. Il n'a pas été possible d'apparier l'échantillon complet de l'ENM au Recensement de 2006 et le calcul des indicateurs n'a été possible que pour les grandes régions géographiques telles que les provinces et territoires, les divisions de recensement et les régions métropolitaines de recensement.
Il est important de rappeler que ce sont des indicateurs de biais fondés sur les données du recensement précédent et non des estimations de biais calculés directement avec les données de l'ENM de 2011. Ces indicateurs ont été utilisés pour évaluer le risque potentiel de biais au niveau de chacune des régions géographiques. L'analyse de ces indicateurs et les analyses supplémentaires en lien avec l'évaluation de la qualité (voir section 5.3) ont permis d'assurer que les estimations de l'ENM qui sont diffusées sont conformes aux normes de qualité de Statistique Canada. Des notes relatives à la qualité des estimations de l'ENM accompagnent les variables et les régions géographiques pour lesquelles des restrictions de données doivent être prises en compte.
- Date de modification :