Chapitre 4 – Pratiques relatives à la qualité des données

La section ci-après décrit les méthodes utilisées pour restreindre la diffusion des données de l'ENM de qualité inacceptable.

Mesures de la qualité des données

Indicateurs de la qualité des données relatifs aux totalisations selon les géographies du lieu de résidence

Indicateurs de la qualité des données

Des indicateurs de la qualité des données sont liés à toutes les régions géographiques normalisées du lieu de résidence sur lesquelles des données sont diffusées. Dans les environnements de base de données de l'ENM, les indicateurs de la qualité des données consistent en un champ numérique à cinq chiffres. Dans la base de données et dans les produits électroniques parcourus à l'aide de Beyond 20/20, ces indicateurs sont affichés en utilisant un code numérique à cinq chiffres (exemple : 1 0 0 1 0). Sur le site Web de l'ENM, les régions partiellement dénombrées sont indiquées aux utilisateurs au moyen de signes conventionnels. Les signes conventionnels utilisés pour l'ENM de 2011 sont décrits à la section Signes conventionnels relatifs à la qualité et à la confidentialité dans les tableaux de données.

Régions partiellement dénombrées

En 2011, il y avait au total 36 réserves indiennes et établissements indiens qui étaient partiellement dénombrés dans l'ENM. Pour ces réserves ou établissements, le dénombrement de l'ENM n'était soit pas permis, soit a été interrompu avant qu'il puisse être terminé, ou il n'était pas possible en raison d'événements naturels (plus particulièrement des feux de forêt dans le Nord de l'Ontario).

Il n'y a aucunes données concernant les réserves indiennes et les établissements indiens partiellement dénombrés dans la base de données de l'ENM. Les régions géographiques de niveaux supérieurs comprenant ces régions sont identifiées dans les produits de l'ENM.

Bien que les données de l'ENM ne soient pas disponibles pour les réserves indiennes et les établissements indiens partiellement dénombrés, les régions elles-mêmes sont comprises dans les hiérarchies géographiques normalisées des bases de données de l'ENM. Les logiciels d'extraction et de totalisation peuvent extraire ces régions, mais sans les données. Pour les géographies du lieu de travail, ces régions seront supprimées.

Régions incomplètement dénombrées

Toutes les régions géographiques qui renferment un secteur partiellement dénombré sont considérées comme des régions incomplètement dénombrées. On signale aux utilisateurs à l'aide d'un indicateur que ces régions contiennent des secteurs partiellement dénombrés.

Taux globaux de non-réponse

Le taux global de non-réponse (TGN) est un indicateur de la qualité des données qui combine les non-réponses complètes et les non-réponses partielles à l'enquête. Un TGN plus faible indique que le risque d'un biais de non-réponse est plus faible, c.-à-d. un moindre risque de manque d'exactitude. Les taux globaux de non-réponse sont déterminés pour chacune des régions géographiques de l'ENM. Ces régions sont indiquées dans la base de données selon le taux de non-réponse. Les régions qui présentent un taux global de non-réponse supérieur ou égal à 50 % sont supprimées des produits de données normalisés, mais seront disponibles sur demande personnalisée. Les régions géographiques comportant un taux global de non-réponse inférieur à 50 % sont indiquées dans les totalisations, mais non supprimées. Dans les produits électroniques, un indicateur numérique ainsi que le taux global de non-réponse réel sont fournis.

Tableau
Indicateurs de la qualité des données pour le lieu de résidence - ENM de 2011

Sommaire du tableau
Ce tableau montre les indicateurs de la qualité des données pour les géographies relatives au lieu de résidence. Les titres des colonnes sont : caractère numérique; description; indicateur; description de l'indicateur.
Caractère numérique Description Indicateur Description de l'indicateur
1er (0XXXX) Indicateur de dénombrement partiel 0 Valeur implicite
1 Réserve indienne ou établissement indien partiellement dénombré (supprimées)
2 Ne comprend pas les données de l'Enquête nationale auprès des ménages pour une ou plusieurs réserves indiennes ou établissements indiens partiellement dénombrés
2e (X0XXX) Sans objet 0 Valeur implicite
3e (XX0XX) Sans objet 0 Valeur implicite
4e (XXX0X) Indicateur relatif à la qualité des données 0 Indice de la qualité des données signalant un taux global de non-réponse inférieur à 50 %
1 Indice de la qualité des données signalant un taux global de non-réponse supérieur ou égal à 50 % (supprimé)
5e (XXXX0) Sans objet 0 Valeur implicite

Indicateurs de la qualité des données relatifs aux totalisations selon les géographies du lieu de travail

Comme indiqué à la section Taux globaux de non-réponse, les taux globaux de non-réponse (TGN) sont déterminés pour chacune des régions géographiques de l'ENM. Par conséquent, les régions géographiques du lieu de travail (LDT) ont leurs propres taux globaux de non-réponse. Les TGN du LDT sont fondés sur la population âgée de 15 ans et plus ayant travaillé à un moment quelconque entre janvier 2010 et mai 2011, soit à un lieu habituel de travail ou à la maison, situé dans la région géographique donnée du lieu de travail, tandis que les TGN des régions géographiques du lieu de résidence (LDR) sont fondés sur la population habitant dans la région. Ainsi, les régions géographiques du lieu de travail pourraient avoir des valeurs de taux globaux de non-réponse différentes comparativement à la région géographique du lieu de résidence équivalente. Par exemple, le taux global de non-réponse pour le lieu de travail de la subdivision de recensement de Toronto pourrait ne pas être le même que le taux global de non-réponse pour le lieu de résidence de la subdivision de recensement de Toronto.

Les TGN des LDT comme les TGN des LDR sont une estimation et non une valeur absolue. Les TGN sont donc assujettis à une certaine variance. Cependant, les TGN du LDT ont plus de variabilité que les TGN du LDR parce que l'estimation de la population du lieu de travail est assujettie à une grande variance étant donné que la population du lieu de travail ne peut être calibrée à une population du lieu de travail dénombrée dans le cadre du recensement, contrairement à l'estimation de la population du lieu de résidence qui elle peut être calibrée à une population du lieu de résidence dénombrée dans le cadre du recensement.

Tout comme pour les régions géographiques du lieu de résidence, les données pour les régions géographiques du lieu de travail qui ont un taux global de non-réponse de 50 % ou plus seront supprimées dans les produits normalisés, mais seront offertes à titre de demande personnalisée. Toutefois, il est important de noter que pour les produits normalisés, des données pourraient être offertes pour certaines régions géographiques du lieu de résidence (si leur taux global de non-réponse est inférieur à 50 %), alors qu'elles ne le seraient pas pour la région géographique du lieu de travail équivalente (si cette région géographique du lieu de travail équivalente a un taux global de non-réponse de 50 % ou plus), et vice-versa.

L'indicateur de qualité des données pour le lieu de travail utilise le quatrième chiffre du code numérique à cinq chiffres.

Tableau
Indicateur de qualité des données pour le lieu de travail, ENM de 2011

Sommaire du tableau
Ce tableau montre les indicateurs de la qualité des données pour les géographies relatives au lieu de travail. Les titres des colonnes sont : caractère numérique; description; indicateur; description de l'indicateur.
Caractère numérique Description Indicateur Description de l'indicateur
4e (XXX0X) Indicateur relatif à la qualité des données 0 Indice de la qualité des données indiquant un taux global de non-réponse inférieur à 50 %
1 Indice de la qualité des données indiquant un taux global de non-réponse supérieur ou égal à 50 % (supprimé)

Autres méthodes de suppression relatives à la qualité des données

Les méthodes de suppression mentionnées jusqu'à maintenant sont suffisantes pour supprimer les régions pour lesquelles la qualité des données est inacceptable et pour signaler les données de qualité inférieure dans la plupart des produits de données de l'ENM. Toutefois, le secteur qui établit les spécifications ou le secteur chargé de la production peut demander que des règles de suppression additionnelles en raison de la qualité des données soient appliquées pour certains produits : par exemple, en augmentant les seuils de population ou en supprimant des répartitions ou des cellules. Il s'agit de règles de suppression qui s'appliquent à des produits en particulier; elles ne font donc pas partie des systèmes de suppression automatisés. Dans tous les cas, il est nécessaire d'utiliser un processus manuel.

Suppression de répartitions

La suppression de répartitions constitue l'exemple le plus fréquent d'autres méthodes de suppression visant à garantir la qualité des données. Cette méthode de suppression est utilisée dans certains produits normalisés sur le revenu, lorsque les répartitions du revenu sont supprimées parce que le nombre total d'unités (personnes, familles, ménages) dans la répartition du revenu est inférieur à 250. Une variante de cette méthode est appliquée aux produits normalisés qui renferment des statistiques uniquement sur le nombre, la médiane et la moyenne du revenu d'emploi ou du revenu total.

Calcul des statistiques d'ordre

Les médianes et, de façon plus générale, les quantiles sont calculés au moyen d'interpolations linéaires. L'intervalle de quantile (c'est-à-dire l'intervalle dans lequel figure la valeur du quantile) est déterminé au moyen de deux méthodes fondées sur le genre des valeurs attribuées aux variables statistiques :

  1. Des variables dont les valeurs peuvent comporter des décimales et des variables dont les valeurs sont exprimées en dollars

    L'intervalle de quantile est construit de façon à ce que les erreurs relatives découlant de l'utilisation de l'interpolation linéaire soit inférieures à 0,78 %. Par exemple, si le quantile réel est 30 000,00 $, l'erreur imputable à l'utilisation de l'algorithme intégré est inférieure à 234,00 $.

  2. Variables dont les valeurs sont des nombres entiers non exprimés sous forme de dollars

    Pour ces variables, l'intervalle de quantile correspond toujours à une unité (1). Par exemple, si le quantile réel est 23,46, l'interpolation est appliquée à l'intervalle [23, 24].

Règle sur la qualité des données pour la diffusion des données relatives à la population âgée de 100 ans et plus

Les données sur la population âgée de 100 ans et plus ne peuvent être diffusées en année d'âge. Pour les demandes personnalisées qui exigent une ventilation plus détaillée que celle des produits de données normalisés, dans lesquels on groupe la population âgée de 100 ans et plus, la seule ventilation détaillée possible est comme suit, et ne peut être fournie que pour « Canada » :

Population totale âgée de 100 ans et plus

100 ans à 104 ans

105 ans à 109 ans

110 ans et plus

Règle sur la qualité des données pour la diffusion des données relatives aux couples de même sexe et de sexe opposé

Les questionnaires du Recensement de 2011 et de l'Enquête nationale auprès des ménages de 2011 ont utilisé, pour la première fois, une réponse précise sur les liens entre les membres du ménage afin de déterminer le nombre de couples mariés de même sexe. L'analyse des données sur les couples mariés de même sexe a montré qu'une surestimation de ce type de familles et d'état matrimonial a pu survenir. L'Enquête nationale auprès des ménages de 2011 montre un total de 63 920 couples de même sexe au Canada, dont 20 280 sont des couples mariés. À l'échelle nationale, l'écart de la surestimation de ces deux estimations varie entre 0 et 3 800.

Les niveaux géographiques tels que le Canada, les provinces, les territoires et les régions métropolitaines de recensement (RMR) affichent des estimations généralement plus élevées, donc on s'attend à ce que la surestimation potentielle soit relativement petite; toutefois, il faut quand même interpréter les données avec prudence.

À un niveau géographique moins élevé, la même surestimation potentielle peut être relativement importante, alors non seulement faut-il interpréter les données avec prudence, mais, certaines règles de suppression limitent leur publication. Ces règles s'appliquent aux données du Recensement de 2011 et aux données de l'Enquête nationale auprès des ménages de 2011.

Premièrement, la ventilation des données sur les couples de même sexe ou les couples de sexe opposé selon la situation conjugale, c.-à-d. s'ils sont mariés ou vivant en union libre, ne doit pas être diffusée pour des régions géographiques autres que le Canada, les provinces, les territoires et les RMR.

Deuxièmement, les données qui identifient les couples de même sexe ou les couples de sexe opposé (au total, couples mariés ou vivant en union libre) pour toutes les régions où la population compte moins de 5 000 habitants (tel qu'établi lors de l'ENM de 2011) ne doivent pas être diffusées.

En résumé,

  • Toutes les données pour les couples de même sexe ou les couples de sexe opposé pour le Canada, les provinces, les territoires et les régions métropolitaines de recensement (RMR) peuvent être diffusées, toutefois elles doivent être interprétées avec prudence.
  • Les données sur les couples de même sexe ou les couples de sexe opposé peuvent être diffusées pour d'autres régions géographiques si leur population compte 5 000 habitants ou plus, à condition que la ventilation selon la situation conjugale (couples mariés ou vivant en union libre) ne soit pas incluse.
  • Aucunes données identifiant les couples de même sexe ou les couples de sexe opposé ne peuvent être diffusées pour les régions comptant une population de moins de 5 000 habitants.
Date de modification :