Chapitre 2 – Règles relatives à la confidentialité (non-divulgation)

La présente section décrit les diverses règles utilisées pour garantir la confidentialité (ou non-divulgation) de l'identité et des caractéristiques des répondants. Toutes les données de l'ENM sont assujetties à des règles (de non-divulgation).

Suppression des régions pour les régions géographiques normalisées et non normalisées

La suppression des régions a pour objet d'éliminer toutes les données sur les caractéristiques pour les régions géographiques dont la population est inférieure à un seuil donné.

Le seuil de population défini pour toutes les régions normaliséesNote de bas de page 1 ou les regroupements de régions normalisées, sauf les îlots, les côtés d'îlot et les régions définies selon le code postal, est de 40. Par conséquent, aucune caractéristique ou donnée totalisée ne doit être diffusée pour les régions dont la population est inférieure à 40 habitants.

Dans le cas des régions définies selon le code postal à six caractères (région de tri d'acheminement - unité de distribution locale [RTA-UDL]), des régions géocodées et des régions personnalisées constituées d'îlots, de côtés d'îlot ou d'UDL, le seuil de population est établi à 100 personnes. Par conséquent, aucune caractéristique ou donnée totalisée ne doit être diffusée si la population totale de la région est inférieure à 100 habitants. En général, la population des îlots et des côtés d'îlot urbains (un côté d'une rue, situé entre deux intersections consécutives) sera trop faible pour respecter les seuils de population établis. Les données relatives aux regroupements d'îlots ou de côtés d'îlot dont la population est supérieure au seuil fixé peuvent être extraites à l'aide d'un tableau personnalisé.

Veuillez consulter la section Règles d'agrégation minimales des codes postaux pour les règles supplémentaires applicables aux données relatives aux codes postaux.

Univers de la population utilisés pour les routines de suppression

La population à l'étude pour toutes les totalisations des données est l'estimation pondéré de la population dans les ménages privés de l'ENM.

Dans le cas des données sur le lieu de travail, la population à l'étude est la population active occupée ayant un lieu de travail habituel ou ayant travaillé à domicile.

Univers de la population utilisés pour les routines de suppression
ENM Régions géographiques des LDT
Estimation pondéré de la population dans les ménages privés Population active occupée ayant un lieu habituel de travail ou ayant travaillé à domicile

Pour les totalisations de l'ENM qui sont fondées sur les géographies ou les régions du lieu de travail, tous les critères doivent être fondés sur les estimations de la population active occupée ayant un lieu habituel de travail ou ayant travaillé à domicile. En l'occurrence, les seuils de population de 40, 100 et 250 sont les estimations de la population active occupée ayant un lieu habituel de travail ou ayant travaillé à domicile, au lieu de la population des régions. Dans le cas des totalisations qui portent à la fois sur des régions géographiques du lieu de résidence et sur des régions géographiques du lieu de travail, les seuils de population (40, 100 et 250) s'appliquent à la fois aux données sur le lieu de résidence (population) et sur le lieu de travail (population active occupée ayant un lieu de travail habituel ou ayant travaillé à domicile).

Règles d'agrégation minimales des codes postaux

En plus des règles de confidentialité concernant la diffusion des données de l'Enquête nationale auprès des ménages assorties des codes postaux, les règles suivantes s'appliquent aux codes postaux. Ces règles s'inscrivent dans le cadre de la clause 03.01 (n) de l'Entente de licence commerciale concernant l'utilisation des codes postaux à des fins autres que la correspondance conclue entre Statistique Canada et la Société canadienne des postes.

  • Toutes les demandes doivent comprendre des lots d'au moins deux codes postaux. Seuls les codes postaux dont le second caractère est un zéro (codes postaux ruraux) font exception.
  • On doit attribuer aux groupes de codes postaux un numéro ou une classification unique (p. ex., K1A 0T6, 0T7, 0T8 = Région personnalisée 1); selon les modalités du contrat mentionné ci-dessus, les clients ne peuvent pas recevoir de listes de codes postaux, seul le nom mentionné dans la requête du client peut être utilisé.
  • Toutes les autres règles de confidentialité pour les extractions personnalisées s'appliquent, conformément à la section Suppression des régions pour les régions géographiques normalisées et non normalisées.

En outre, l'avertissement qui suit doit être inclus dans toutes les demandes de codes postaux personnalisées :

Avis de non-responsabilité concernant la validation du code postal : Statistique Canada ne fait aucune déclaration et n'offre aucune garantie concernant l'exactitude des données relatives aux codes postauxMO soumis à Statistique Canada.

Ces règles s'appliquent aussi aux demandes de codes postaux historiques.

Arrondissement aléatoire

Toutes les estimations des totalisations de l'ENM sont assujetties à un processus appelé l'arrondissement aléatoire. L'arrondissement aléatoire transforme toutes les estimations brutes en estimations arrondies aléatoirement. Ceci réduit la possibilité de révéler l'identité de personnes dans les totalisations.

Toutes les estimations supérieures à 10 sont arrondies à un multiple de 5, les estimations inférieures à 10 sont arrondies à un multiple de 10. Cela signifie que toutes les estimations inférieures à 10 seront toujours remplacées par 0 ou 10. Le tableau ci-après montre l'effet de l'arrondissement sur les estimations comportant une valeur inférieure à 10.

Fréquence de l'arrondissement aléatoire
Estimation de Sera arrondie à 0 Sera arrondie à 10
1 9 fois sur 10 1 fois sur 10
2 8 fois sur 10 2 fois sur 10
3 7 fois sur 10 3 fois sur 10
4 6 fois sur 10 4 fois sur 10
5 5 fois sur 10 5 fois sur 10
6 4 fois sur 10 6 fois sur 10
7 3 fois sur 10 7 fois sur 10
8 2 fois sur 10 8 fois sur 10
9 1 fois sur 10 9 fois sur 10
0 Toujours Jamais

L'algorithme d'arrondissement aléatoire utilise une valeur de départ aléatoire pour déclencher le processus d'arrondissement pour les tableaux. Lorsque ces routines sont appliquées, il est possible que la même estimation dans le même tableau soit arrondie vers le haut dans une exécution et vers le bas dans une autre en raison de la méthode utilisée pour amorcer le processus.

Prévention de la divulgation pour les statistiques

Les statistiques (moyenne, somme, médiane, centile, ratio ou pourcentage) ne sont pas arrondies aléatoirement. Toutefois, l'inclusion des statistiques dans les tableaux où figurent également les estimations à partir desquelles elles ont été calculées peut se solder par la divulgation de l'identité des répondants. Pour éviter ce problème, on applique des méthodes de suppression pour les statistiques ou des calculs statistiques spéciaux.

Suppression de statistiques

On procède à la suppression de statistiques chaque fois que l'une ou l'autre des trois conditions suivantes est satisfaite :

  1. Les statistiques relatives à une cellule seront supprimées si l'étendue des données (c.-à-d. le montant maximal en dollars de la cellule moins le montant minimal en dollars) divisée par le maximum des valeurs absolues est sous la valeur de seuil d'un paramètre. Cette méthode de suppression est appliquée uniquement à des statistiques calculées à partir des valeurs quantitatives mesurées en dollars ($), notamment le revenu ou la valeur des logements.
  2. Dans le cas de toutes les variables quantitatives, une statistique est supprimée si le nombre d'enregistrements réel (non arrondi ni pondéré) à partir desquels elles ont été calculées est inférieur à 4. Pour les statistiques quantiles, un autre nombre minimum d'enregistrements s'applique : pour les quartiles, les quintiles ou les déciles, il faut 20 enregistrements et pour le centile, 400 enregistrements sont nécessaires.
  3. Les statistiques pour une cellule seront supprimées si elle contient une valeur aberrante. Une cellule sera considérée comme ayant une valeur aberrante si la valeur absolue la plus grande divisée par la somme des valeurs absolues est au-dessus de la valeur de seuil d'un paramètre.

Note : Le nombre d'enregistrements utilisés aux fins du calcul n'est pas nécessairement égal au nombre d'enregistrements que comporte la cellule; il s'agit plutôt du nombre d'enregistrements applicables ou disponibles aux fins du calcul de la statistique figurant dans la cellule.

Exemple :
Supposons une cellule contenant les enregistrements suivants :

Les huit enregistrements dans la cellule représentent 47,6 personnes (la somme des facteurs de pondération). Puisque pour la variable « Salaires » seules des valeurs non nulles sont utilisées dans le calcul, la moyenne 22 727,27 $ sera supprimée parce que seulement trois enregistrements sont utilisés dans le calcul.

Exemple de huit enregistrements montrant le poids appliqué et les salaires de chaque répondant
Numéro d'enregistrement Facteur de pondération Salaires ($)
1 5,5 16 500
2 2,9 345 600
3 8,1 12 900
4 6,2 0
5 6,6 0
6 5,9 0
7 5,4 0
8 6,9 0
  1. Pour toutes les variables quantitatives, toutes les statistiques sont supprimées si la somme des facteurs de pondération est inférieure à 10.

Calculs statistiques spéciaux

  1. La valeur prise par la statistique n'est jamais arrondie, sauf dans le cas des fréquences.
  2. Toutes les statistiques fondées sur un classement par ordre des valeurs (médianes, centiles) sont calculées de la façon habituelle, c'est-à-dire jamais arrondies.
  3. Dans le cas des sommes, si le programme calcule une valeur exprimée en dollars, un nombre de semaines, un nombre d'heures ou un âge, il multiplie alors la moyenne non arrondie du groupe en question par la fréquence pondérée arrondie. Autrement, le programme arrondit la somme pondérée.

Lorsqu'il faut faire une division (moyennes, pourcentages, ratios, etc.), le programme doit appliquer la règle énoncée au point 3) tant au numérateur qu'au dénominateur avant d'effectuer la division.

Note : Les statistiques fondées sur un classement par ordre des valeurs, telles que la médiane et les centiles, sont toujours calculées au moyen d'interpolations linéaires. Ces statistiques ne sont donc pas fiables dans le cas de cellules comportant de faibles estimations. C'est pourquoi aucune autre règle relative à la confidentialité ne leur est appliquée.

Note : La moyenne d'une valeur en dollars, d'un nombre de semaines, d'un nombre d'heures ou d'un âge n'est pas modifiée par l'arrondissement, parce que le numérateur correspond au produit de la moyenne réelle multipliée par la fréquence arrondie, et que le dénominateur correspond à la fréquence arrondie. Les deux fréquences s'annulent l'une l'autre de sorte que la moyenne réelle n'est pas modifiée.

Suppression des estimations de l'ENM en raison de la protection de la confidentialité des renseignements

À la section Règles d'agrégation minimales des codes postaux, il est question d'arrondissement aléatoire des estimations des totalisations de l'ENM. L'arrondissement aléatoire est utilisé afin de protéger la confidentialité dans les estimations. L'analyse des données de l'ENM a révélé que même si on applique l'arrondissement aléatoire, nous risquons, dans certains cas, de diffuser des données comportant des risques élevés de divulgation.

Ces risques élevés se manifestent car l'ajustement de la non réponse de l'ENM a exigé un large éventail de poids. Les poids élevés pourraient permettre aux individus ayant de rares caractéristiques d'être facilement identifiables dans un tableau, spécialement si leurs caractéristiques sont connues du grand public.

Afin de minimiser ces risques, une règle relative aux estimations semblables à la règle pour les variables quantitatives décrite à la section Arrondissement aléatoire a été mise en œuvre. L'estimation de la cellule sera supprimée si le nombre d'enregistrements comprenant l'attribut ou la combinaison d'attributs représenté par la cellule (non arrondie et non pondérée) est inférieur à 4. Dans ces cas, la cellule affichera le nombre 0 plutôt que la valeur supprimée, et par conséquent, ne se distinguera pas d'une cellule vide véritable.

Exemple :

Supposons que nous avons les enregistrements suivant pour une géographie donnée :

Exemple de 15 enregistrements montrant le poids appliqué et l'âge de chaque répondant
Numéro d'enregistrement Facteur de pondération Âge
1 6,5 20
2 4,9 22
3 8 25
4 6,8 26
5 5,4 27
6 6,1 27
7 4,7 27
8 5,7 29
9 2,8 32
10 6,8 36
11 41,1 39
12 5 39
13 81,4 40
14 5,1 50
15 3,2 54

En appliquant l'arrondissement aléatoire seulement, les estimations de l'ENM seraient publiées (arrondies aléatoirement) comme illustré dans le tableau suivant. Le nombre d'enregistrements ne serait jamais publié, mais sert seulement à démontrer l'effet de la règle.

Exemple d'estimations qui seraient publiées sans l'application de la suppression fondée sur la cellule
Sommaire du tableau
Ce tableau montre les estimations qui seraient publiées selon l'exemple des 15 enregistrements du tableau précédent. Les titres des colonnes sont : l'étendue d'âge de 20 à 29; 30 à 39; 40 à 49; 50 à 59; total. Les rangées sont : valeurs; estimation de l'Enquête nationale auprès des ménages; nombre d'enregistrements.
  Étendue d'âge
Valeurs 20 à 29 30 à 39 40 à 49 50 à 59 Total
Estimation de l'ENM 50 55 80 10 195
Nombre d'enregistrements 8 4 1 2 15

La suppression fondée sur les estimations dans les cellules supprime les étendues d'âge 40 à 49 et 50 à 59, car aussi peu que quatre (4) enregistrements possèdent l'attribut en question et le résultat est le tableau suivant. Le total demeure inchangé puisque la cellule entière représente au moins quatre personnes.

Exemple d'estimations qui seraient publiées avec l'application de la suppression fondée sur la cellule
Sommaire du tableau
À l'aide du même exemple des 15 enregistrements, ce tableau montre les estimations qui seraient publiées suite à la suppression fondée sur les valeurs dans les cellules. Les titres des colonnes sont : l'étendue d'âge de 20 à 29; 30 à 39; 40 à 49; 50 à 59; total. Les rangées sont : valeurs; estimation de l'Enquête nationale auprès des ménages; nombre d'enregistrements.
  Étendue d'âge
Valeurs 20 à 29 30 à 39 40 à 49 50 à 59 Total
Estimation de l'ENM 50 55 0 0 195
Nombre d'enregistrements 8 4 1 2 15

La principale raison d'être de cette règle est de prévenir la divulgation des renseignements personnels liés à certaines personnes. Dans l'exemple ci-dessus, s'il n'y a qu'une seule personne dans une région donnée qui se situe dans l'étendue d'âge 40 à 49 ans, le fait que cette personne soit un répondant de l'ENM ne sera pas divulgué, et par le fait même, minimise le risque que plus de renseignements provenant de l'ENM au sujet de cette personne ne soient divulgués.

Note de bas de page

Note 1

Pour plus de renseignements sur les régions normalisées, reportez-vous au Dictionnaire du recensement de 2011.

Retourner à la note de bas de page 1 référence

Date de modification :