Guide du Recensement de la population, 2016
Annexe 1.8 ‒ Évaluation de l'impact de la mise à jour des données du Recensement de 2016 sur la langueGuide du Recensement de la population, 2016
Annexe 1.8 ‒ Évaluation de l'impact de la mise à jour des données du Recensement de 2016 sur la langue

Après avoir été informé d'anomalies, pour certaines régions du Québec, dans les données linguistiques du Recensement de 2016 diffusées le 2 août dernier, Statistique Canada a mené une investigation approfondie afin d'identifier leurs sources.

Lors du recensement, Statistique Canada effectue un suivi auprès des ménages ayant rempli partiellement le questionnaire du recensement. Dans le cadre du Recensement de 2016, Statistique Canada a développé un programme informatique pour effectuer certaines étapes reliées à cette opération. C'est dans ce programme informatique qu'une erreur a été identifiée, affectant les questionnaires de langue française.

Les questions linguistiques du recensement sont les seules questions pour lesquelles les choix de réponse diffèrent entre les versions française et anglaise. La version française du questionnaire du recensement donne préséance au français dans le libellé des questions et dans les choix de réponse. Ceci ne touche que les questions du recensement sur la langue maternelle, sur la langue parlée à la maison et sur la connaissance des langues officielles. L'exemple qui suit illustre cette différence pour ce qui est de la langue parlée le plus souvent à la maison. C'est cette particularité qui n'a pas été prise en compte par le nouveau programme informatique utilisé dans le suivi de la non-réponse partielle en 2016.

Figure bilingue montrant la Question 8 a) du questionnaire du Recensement de la population de 2016

Description de la figure

Cette figure bilingue montre la question 8 a) du questionnaire du Recensement de la population de 2016. La partie gauche de la figure affiche la question en français qui se lit comme suit : « Quelle langue cette personne parle-t-elle le plus souvent à la maison ». Les catégories de réponses sont « Français; Anglais; Autre langue – précisez ». La partie droite de la figure affiche la question en anglais qui se lit comme suit : « What language does this person speak most often at home ». Les catégories de réponses sont « English; French; Other language – specify ».

L'erreur qui en a découlé a entraîné une attribution erronée de réponses aux questions linguistiques du recensement pour environ 61 000 personnes, principalement au Québec. Elle s'est traduite par une surestimation de la croissance de l'anglais au Québec entre 2011 et 2016, tant comme langue maternelle que comme langue d'usage à la maison.

Après avoir corrigé ces erreurs d'attribution, Statistique Canada a mené un examen approfondi afin de s'assurer qu'aucune autre question du recensement n'ait été affectée par une erreur, et que les logiciels utilisés n'affectent pas d'autres variables. De plus, Statistique Canada a révisé en profondeur les multiples étapes de vérification et de contrôle des données.

Les résultats de ces analyses et les corrections apportées sont décrits ci-dessous.

Conséquence potentielle sur les autres variables

Après avoir décelé l'erreur dans l'attribution des réponses aux questions linguistiques, Statistique Canada a mené un examen exhaustif des systèmes, programmes et procédures d'estimation afin de déterminer si cette erreur avait eu une incidence négative sur la qualité des estimations de toutes les autres variables. À la suite de cet examen, Statistique Canada a conclu que l'incidence de cette erreur sur les estimations de toutes les autres variables était négligeable.

Pour les variables du Recensement de 2016, la grande majorité des réponses ont été obtenues directement des répondants au moyen du questionnaire du recensement ou par couplage d'enregistrements avec les fichiers administratifs. Par exemple, 99 % des réponses sur le lieu de naissance provenaient directement des répondants et 95 % des valeurs de revenu provenaient de données administratives de qualité élevée (y compris des données fiscales de l'Agence du revenu du Canada)^{Note 1}^{Note 2}. L'attribution erronée de certaines réponses à des questions sur la langue peut uniquement avoir eu une incidence sur l'estimation de la proportion restante des enregistrements qui nécessitaient une imputation dans le cadre du processus d'imputation par donneur. Dans le cadre de ce processus, les valeurs manquantes ou invalides d'un répondant (enregistrement receveur) sont remplacées par celles d'autres répondants ayant des caractéristiques semblables (enregistrement donneur). L'attribution erronée de certaines réponses à des questions sur la langue peut avoir eu une incidence sur l'estimation de cet enregistrement de l'une ou l'autre des deux façons suivantes :

Un enregistrement receveur dont la variable linguistique a été codée incorrectement a été imputé à partir d'un enregistrement donneur. Dans ce cas, un autre enregistrement donneur ayant une valeur différente aurait pu être sélectionné, si la variable linguistique de l'enregistrement receveur avait été codée correctement.
Un enregistrement receveur dont la variable linguistique a été codée correctement a été imputé à partir d'un enregistrement donneur. Dans ce cas, il est possible que l'enregistrement donneur ait été sélectionné incorrectement, en partie en raison du fait que la variable linguistique de l'enregistrement donneur a été codée incorrectement.

Dans ce processus d'imputation par donneur, les enregistrements donneurs sont sélectionnés en fonction d'un pointage indiquant le degré de similitude entre l'enregistrement donneur et l'enregistrement receveur. Habituellement, un enregistrement donneur est sélectionné au hasard parmi plusieurs enregistrements donneurs ayant un pointage semblable. Il importe de souligner que cette sélection aléatoire entraîne une variabilité dans le cadre du processus d'imputation par donneur et que toute nouvelle exécution du système d'imputation par donneur d'une même variable pourrait produire des estimations légèrement différentes.

Statistique Canada a mené une analyse afin de déterminer si l'erreur relative aux variables linguistiques a eu une incidence sur les résultats du processus d'imputation par donneur. Tout d'abord, toute incidence possible de l'erreur sur les résultats serait atténuée selon les facteurs suivants :

Dans le choix de donneurs pour l'imputation, ce ne sont pas toutes les variables qui utilisent les variables linguistiques dans le choix de donneurs pour l'imputation. Le revenu, l'immigration, l'identité ethnoculturelle et autochtone, la mobilité et l'immigration ainsi que la langue de travail étaient les seuls thèmes à faire appel aux variables linguistiques lors du processus d'imputation. L'âge et le sexe, le type de logement, la famille, l'état matrimonial et la situation dans le ménage n'ont pas été touchés, puisqu'aucune variable linguistique (ou aucune des variables susmentionnées) n'a été utilisée pour choisir des enregistrements donneurs pour l'imputation.
Très peu de cas ayant fait l'objet d'une imputation ont été affectés par cette erreur d'attribution des variables linguistiques. Le tableau 1 démontre que, parmi les cas ayant été affectés, la plupart des variables qui utilisaient la langue pour sélectionner les enregistrements donneurs ont été imputées moins de 1 000 fois.
Les enregistrements touchés étaient concentrés au Québec et étaient répartis entre de nombreuses municipalités (subdivisions de recensement ou SDR) du Québec et non concentrés dans une municipalité précise de la province.
La langue n'est qu'une des nombreuses variables utilisées dans le processus d'imputation par donneur. Selon les variables imputées, les variables de sélection de l'enregistrement donneur sont l'âge, le sexe, la géographie, les variables des données administratives couplées (p. ex., le lieu de naissance provenant des fichiers de données administratives couplées sur l'immigration, d'autres variables (p. ex., le statut d'immigrant) et la langue. Les caractéristiques d'un enregistrement donneur sont couplées aux caractéristiques d'un donneur auxquelles elles correspondent le mieux pour chacune de ces variables. Puisque de multiples variables sont utilisées, l'incidence d'une erreur relative à l'une de ces variables est considérablement réduite.
De toutes les variables, la langue est une variable de sélection importante dans le choix de l'enregistrement donneur puisqu'elle permet d'établir une distinction entre les langues immigrantes, les langues autochtones et les langues officielles. Parce que l'erreur dans l'attribution de la langue est due au codage incorrect entre les deux langues officielles, l'importance de l'erreur est plus petite que si elle avait touché les langues immigrantes ou les langues autochtones.
Les enregistrements donneurs dont les autres caractéristiques sont similaires ont aussi tendance à contenir des renseignements semblables ou identiques pour les variables imputées, ce qui atténue l'incidence de l'utilisation d'un enregistrement donneur différent.

Tableau 1
Nombre d'enregistrements imputés touchés et leur part de la population totale, certaines variables pour lesquelles les variables linguistiques ont été utilisées pour sélectionner les enregistrements donneurs lors de l'imputation Canada et Québec
Sommaire du tableau
Le tableau montre les résultats de Nombre d'enregistrements imputés touchés et leur part de la population totale, certaines variables pour lesquelles les variables linguistiques ont été utilisées pour sélectionner les enregistrements donneurs lors de l'imputation Canada et Québec. Les données sont présentées selon Variable (titres de rangée) et Question, Nombre d'enregistrements touchés imputés et Pourcentage de la population totale, calculées selon Canada et Québec unités de mesure (figurant comme en-tête de colonne).
Variable	Question	Nombre d'enregistrements touchés imputés	Pourcentage de la population totale (%)
Variable	Canada
Revenu	Données administratives couplées	1 940	0,01
Lieu de naissance	Q12	340	0,00
Citoyenneté	Q13	300	0,00
Statut d'immigrant	Q14	250	0,00
Année d'immigration	Q15	410	0,00
Catégorie d'admission	Données administratives couplées	160	0,00
Origine ethnique	Q17	2 220	0,03
Groupe autochtone	Q18	610	0,01
Minorité visible	Q19	1 000	0,01
Statut d'Indien inscrit ou des traités	Q20	620	0,01
Membre d'une Première Nation ou d'une bande indienne	Q21	790	0,01
Mobilité, fondée sur une période d'un an	Q22	910	0,01
Mobilité, fondée sur une période de cinq ans	Q23	980	0,01
Lieu de naissance du père	Q24a	630	0,01
Lieu de naissance de la mère	Q24b	690	0,01
Langue de travail	Q45	710	0,01
	Québec
Revenu	Données administratives couplées	1 760	0,02
Lieu de naissance	Q12	320	0,02
Citoyenneté	Q13	280	0,01
Statut d'immigrant	Q14	230	0,01
Année d'immigration	Q15	370	0,02
Catégorie d'admission	Données administratives couplées	150	0,01
Origine ethnique	Q17	2 070	0,11
Groupe autochtone	Q18	580	0,03
Minorité visible	Q19	930	0,05
Statut d'Indien inscrit ou des traités	Q20	560	0,03
Membre d'une Première Nation ou d'une bande indienne	Q21	740	0,04
Mobilité, fondée sur une période d'un an	Q22	840	0,04
Mobilité, fondée sur une période de cinq ans	Q23	910	0,05
Lieu de naissance du père	Q24a	580	0,03
Lieu de naissance de la mère	Q24b	640	0,03
Langue de travail	Q45	650	0,03
Note : Le nombre d'enregistrements imputés est non pondéré et arrondi. Les pourcentages de la population totale sont calculés à l'aide des estimations pondérées pour toutes les variables, sauf le revenu. Source : Statistique Canada, Recensement de la population, 2016.

Dans le cadre de son analyse, Statistique Canada a exécuté à nouveau certaines étapes du processus d'imputation, en premier lieu dans le but d'évaluer le degré de variabilité des estimations inhérente au processus d'imputation, et en second lieu pour évaluer l'importance de la variation découlant de la nouvelle imputation des enregistrements touchés par l'erreur d'attribution aux variables linguistiques. Si l'importance de la variation découlant de la nouvelle imputation des enregistrements touchés par l'erreur d'attribution était faible par rapport à la variabilité des estimations inhérente au processus d'imputation, cela signifierait que l'incidence de l'erreur d'attribution sur les estimations était négligeable.

Le tableau 2 illustre, de façon globale, la variabilité causée par le système d'imputation à l'égard des estimations^{Note 3}. Le tableau met l'accent sur les résultats pour le Québec, où la plupart des cas d'anomalies ont été relevés. Il porte uniquement sur les variables pour lesquelles les variables linguistiques ont été utilisées pour choisir les enregistrements donneurs pendant l'imputation. On y affiche les valeurs moyennes pour l'ensemble des SDR, selon la taille, pour certains indicateurs de revenu et d'identité ethnoculturelle (revenu total médian, salaires médians, proportion de la population ayant une identité autochtone, proportion de minorités visibles, proportion d'immigrants et proportion d'origine ethnique des îles Britanniques^{Note 4})^{Note 5}. Lorsque les données sont imputées à nouveau pour l'ensemble des SDR, les estimations peuvent augmenter ou diminuer. Par exemple, pour une SDR comptant de 20 000 à 99 999 habitants; lorsque la valeur du revenu total a augmenté, elle a augmenté en moyenne de 16 $; lorsqu'elle a diminué, elle a diminué en moyenne de 15 $. Ces données illustrent la faible variabilité des estimations qui découle de l'imputation par donneur.

Le tableau 3 montre l'effet de corriger seulement les enregistrements dont l'attribution des variables linguistiques a changé^{Note 6}. Pour les SDR de cette catégorie de taille; lorsque l'estimation du revenu a augmenté, elle a augmenté en moyenne de 3 $; lorsqu'elle a diminué, elle a diminué en moyenne de 4 $. Ainsi, la variation découlant de la correction de l'erreur d'attribution et de la nouvelle imputation des résultats est minime et dans les limites de la variabilité inhérente au processus d'imputation. Cette variation a donc une incidence négligeable sur les résultats. Il en a été de même pour les SDR de différentes catégories de taille et pour les autres variables pour lesquelles des variables linguistiques ont été utilisées pour sélectionner les donneurs lors de l'imputation^{Note 7}.

L'analyse de l'incidence possible de l'erreur survenue lors de l'attribution des réponses aux questions linguistiques du Recensement de 2016 sur les estimations des autres variables a permis de conclure que l'erreur a eu une incidence très négligeable. Ce résultat était à prévoir, compte tenu du fait que la vaste majorité des enregistrements ont été obtenus directement des répondants ou des données administratives couplées, et que très peu de répondants ont vu leurs estimations touchées par l'erreur d'attribution de la variable linguistique.

Toutefois, dans certains cas, les variables sur la langue maternelle, la langue parlée à la maison ou la connaissance des langues officielles ont été utilisées pour modifier de manière déterministe les réponses incohérentes relatives aux variables sur la langue de travail et la connaissance de langues tierces (p. ex., si une personne indique qu'elle parle l'espagnol le plus souvent à la maison, l'espagnol doit également être une des réponses fournies pour la connaissance de langues tierces). À cause de cette dépendance directe, les variables sur la langue de travail et la connaissance de langues tierces ont été traitées à nouveau pour le Recensement de 2016 à l'aide les variables corrigées sur la langue maternelle, la langue parlée à la maison et la connaissance de langues officielles.

Compte tenu de ces résultats, il n'est pas nécessaire de recalculer les estimations autres que linguistiques du Recensement de 2016.

Tableau 2
Comparaison des estimations générées par deux séries d'imputation, certaines variables pour lesquelles les variables linguistiques ont été utilisées pour sélectionner les enregistrements donneurs lors de l'imputation, subdivisions de recensement (SDR), Québec
Sommaire du tableau
Le tableau montre les résultats de Comparaison des estimations générées par deux séries d'imputation, certaines variables pour lesquelles les variables linguistiques ont été utilisées pour sélectionner les enregistrements donneurs lors de l'imputation, subdivisions de recensement, Québec. Les données sont présentées selon Taille de la population de la subdivision de recensement (titres de rangée) et Valeurs provenant d'une imputation, Valeurs provenant d'une autre imputation, Variation moyenne due à l'imputation, Moyenne des variations positives et Moyenne des variations négatives, calculées selon Revenu total médian (en dollars), Salaires et traitements médians (en dollars), Proportion ayant déclaré une identité autochtone (pourcentage), Proportion de minorités visibles (pourcentage), Proportion d'immigrants (pourcentage) et Proportion ayant déclaré des origines ethniques des îles Britanniques (pourcentage) unités de mesure (figurant comme en-tête de colonne).
Taille de la population de la SDR	Valeurs provenant d'une imputation	Valeurs provenant d'une autre imputation	Variation moyenne due à l'imputation	Moyenne des variations positives	Moyenne des variations négatives
Taille de la population de la SDR	Revenu total médian ($)
250 à 9 999	30 128	30 129	−3	69	−67
10 000 à 19 999	36 958	36 952	−10	20	−22
20 000 à 99 999	36 478	36 477	−5	16	−15
100 000 et plus	34 469	34 468	2	13	−8
	Salaires et traitements médians ($)
250 à 9 999	28 534	28 530	2	97	−96
10 000 à 19 999	35 725	35 722	−1	29	−32
20 000 à 99 999	35 606	35 607	−2	12	−16
100 000 et plus	33 957	33 955	1	6	−5
	Proportion ayant déclaré une identité autochtone (%)
250 à 9 999	7,0	7,0	0,00	0,20	−0,30
10 000 à 19 999	2,1	2,1	0,00	0,04	−0,06
20 000 à 99 999	1,3	1,3	0,00	0,02	−0,01
100 000 et plus	1,6	1,6	0,00	0,01	0,00
	Proportion de minorités visibles (%)
250 à 9 999	0,8	0,8	0,00	0,15	−0,18
10 000 à 19 999	4,5	4,5	0,00	0,01	−0,01
20 000 à 99 999	6,2	6,2	0,00	0,01	−0,01
100 000 et plus	10,3	10,3	0,00	0,00	0,00
	Proportion d'immigrants (%)
250 à 9 999	2,6	2,6	0,00	0,15	−0,23
10 000 à 19 999	9,0	9,0	0,00	0,00	−0,01
20 000 à 99 999	10,5	10,5	0,00	0,01	−0,01
100 000 et plus	14,5	14,5	0,00	0,00	0,00
	Proportion ayant déclaré des origines ethniques des îles Britanniques (%)
250 à 9 999	8,4	8,4	0,00	0,39	−0,40
10 000 à 19 999	11,7	11,7	0,02	0,09	−0,09
20 000 à 99 999	8,7	8,7	0,01	0,07	−0,05
100 000 et plus	8,0	8,0	0,00	0,02	−0,01
Note : L'analyse porte sur les SDR comptant une population de 250 habitants et plus. Les nombres dans les cellules du tableau représentent la valeur moyenne pour les SDR selon la taille de la population. Population dans les ménages privés seulement. En ce qui a trait aux variables liées au revenu, l'analyse se limite à la population âgée de 15 ans et plus et vivant dans des logements privés. Pour les variables ethnoculturelles, l'analyse se limite à la population vivant dans des logements privés et aux personnes hors famille de recensement, aux familles monoparentales et aux personnes en couple (avec ou sans enfants). Source : Statistique Canada, Recensement de la population, 2016, analyse expérimentale.

Tableau 3
Comparaison entre les estimations espérées avant et après avoir imputé à nouveau les enregistrements contenant des erreurs d'attribution de langue, certaines variables pour lesquelles les variables linguistiques ont été utilisées pour sélectionner les enregistrements donneurs lors de l'imputation, subdivisions de recensement (SDR), Québec
Sommaire du tableau
Le tableau montre les résultats de Comparaison entre les estimations espérées avant et après avoir imputé à nouveau les enregistrements contenant des erreurs d'attribution de langue, certaines variables pour lesquelles les variables linguistiques ont été utilisées pour sélectionner les enregistrements donneurs lors de l'imputation, subdivisions de recensement, Québec. Les données sont présentées selon Taille de la population de la subdivision de recensement (titres de rangée) et Valeurs espérées (avant les corrections aux enregistrements contenant des erreurs d'attribution de la variable linguistique), Valeurs espérées (après les corrections aux enregistrements contenant des erreurs d'attribution de la variable linguistique), Variation moyenne, Moyenne des variations positives et Moyenne des variations négatives, calculées selon Revenu total médian (en dollars), Salaires et traitements médians (en dollars), Proportion ayant déclaré une identité autochtone (pourcentage), Proportion de minorités visibles (pourcentage), Proportion d'immigrants (pourcentage) et Proportion ayant déclaré des origines ethniques des îles Britanniques (pourcentage) unités de mesure (figurant comme en-tête de colonne).
Taille de la population de la SDR	Valeurs espérées (avant les corrections aux enregistrements contenant des erreurs d'attribution de la variable linguistique)	Valeurs espérées (après les corrections aux enregistrements contenant des erreurs d'attribution de la variable linguistique)	Variation moyenne	Moyenne des variations positives	Moyenne des variations négatives
Taille de la population de la SDR	Revenu total médian ($)
250 à 9 999	30 133	30 129	−3	24	−31
10 000 à 19 999	36 957	36 955	−2	3	−6
20 000 à 99 999	36 477	36 477	0	3	−4
100 000 et plus	34 470	34 469	0	2	−1
	Salaires et traitements médians ($)
250 à 9 999	28 535	28 536	1	44	−41
10 000 à 19 999	35 726	35 726	0	8	−8
20 000 à 99 999	35 609	35 607	−2	5	−6
100 000 et plus	33 955	33 956	0	3	−2
	Proportion ayant déclaré une identité autochtone (%)
250 à 9 999	7,0	7,0	0,00	0,17	−0,07
10 000 à 19 999	2,1	2,1	0,00	0,01	0,00
20 000 à 99 999	1,3	1,3	0,00	0,01	−0,01
100 000 et plus	1,6	1,6	0,00	0,00	0,00
	Proportion de minorités visibles (%)
250 à 9 999	0,8	0,8	0,00	0,08	0,00
10 000 à 19 999	4,5	4,5	0,00	0,00	−0,01
20 000 à 99 999	6,2	6,2	0,00	0,00	0,00
100 000 et plus	10,3	10,3	0,00	0,00	0,00
	Proportion d'immigrants (%)
250 à 9 999	2,6	2,6	0,00	0,13	−0,06
10 000 à 19 999	9,0	9,0	0,00	0,00	−0,01
20 000 à 99 999	10,5	10,5	0,00	0,00	0,00
100 000 et plus	14,5	14,5	0,00	0,00	0,00
	Proportion ayant déclaré des origines ethniques des îles Britanniques (%)
250 à 9 999	8,4	8,4	−0,02	0,25	−0,30
10 000 à 19 999	11,7	11,7	−0,02	0,02	−0,06
20 000 à 99 999	8,7	8,7	−0,01	0,02	−0,02
100 000 et plus	8,0	8,0	−0,01	0,01	−0,01
Note : L'analyse porte sur les SDR ayant une population de 250 habitants et plus. Les nombres dans les cellules du tableau représentent la valeur moyenne pour les SDR selon la taille de la population. Population dans les ménages privés seulement. Pour les variables liées au revenu, l'analyse se limite à la population âgée de 15 ans et plus et vivant dans des logements privés. Pour les variables ethnoculturelles, l'analyse se limite à la population vivant dans des logements privés et aux personnes hors famille de recensement, aux familles monoparentales et aux personnes en couple (avec ou sans enfants). Source : Statistique Canada, Recensement de la population, 2016, analyse expérimentale.

Évaluation de l'impact sur la pondération de l'échantillon du questionnaire détaillé du Recensement de 2016

La pondération de l'échantillon du questionnaire détaillé du recensement vise à extrapoler ses résultats à l'ensemble de la population. La pondération se fonde sur plusieurs caractéristiques recueillies pour l'ensemble de la population. Plus spécifiquement, le poids des ménages dans l'échantillon du questionnaire détaillé est calculé de sorte que la somme de poids de ces ménages corresponde aux chiffres de population pour plusieurs caractéristiques. Cette technique se nomme calage des poids.

Le calage des poids assure la cohérence et diminue la variance des estimations des caractéristiques du questionnaire détaillé corrélées aux caractéristiques de calage. Le calage des poids est effectué indépendamment pour les aires géographiques appelées aires de pondération^{Note 8}. Jusqu'à 200 caractéristiques de population peuvent être utilisées pour effectuer le calage des poids d'une aire de pondération. En moyenne, une centaine de caractéristiques sont retenues.

Parmi les caractéristiques affectées par l'erreur dans les données linguistiques, seule la « connaissance des langues officielles » (c.-à-d. français seulement, anglais seulement, français et anglais, ni français ni anglais) est utilisée au calage. Des corrections sur les données linguistiques ont été apportées pour environ 61 000 personnes. Toutefois, la « connaissance des langues officielles » ne nécessitait pas de correction pour tous ces particuliers. Des corrections à la « connaissance des langues officielles » ont été apportées pour un peu plus de 36 000 personnes dont la très grande majorité (95 %) est passée de la catégorie « Français et anglais » à « Français seulement ». Puisque ces corrections concernaient principalement les personnes ayant une connaissance du français, elles s'avéraient plus importantes dans certaines aires de pondération du Québec.

Les estimations des aires de pondération les plus affectées par ces corrections ont été évaluées. Les poids originaux ont été calculés à partir de la « connaissance des langues officielles » avant les corrections. L'évaluation a déterminé si ces poids pouvaient être utilisés pour produire des estimations précises des caractéristiques du questionnaire détaillé en termes de biais et de variance d'échantillonnage. L'incidence sur les estimations est plus facilement détectable dans les variables corrélées à la « connaissance des langues officielles » telles que des variables socioculturelles ou d'autres variables portant sur les langues qui n'ont pas été utilisées au calage.

Les données sur la langue maternelle (c.-à-d. français, anglais ou une autre langue), qui étaient disponibles pour l'ensemble de la population, ont été utilisées comme variable d'essai pour étudier la précision des estimations. Cette variable est corrélée à la « connaissance des langues officielles », et a fait l'objet de corrections. Des estimations pour les quatre aires de pondération les plus affectées par les corrections ont été produites pour les deux catégories de la « langue maternelle » les plus affectées (c.-à-d. français et anglais), après correction de cette variable. Des estimations ont premièrement été produites à l'aide des poids originaux, puis à l'aide des poids de calage aux chiffres de population de la « connaissance des langues officielles » après la correction de la variable, de même qu'aux chiffres de population des autres caractéristiques aussi utilisées pour le calcul des poids originaux^{Note 9}.

Afin d'étudier l'impact sur le biais des estimations, des statistiques-t (c.-à-d. la différence entre l'estimation d'un total et le chiffre de population divisée par l'erreur type de l'estimation du total) ont été calculées à l'aide des deux ensembles de poids. Puis, une statistique-t a été calculée pour la différence entre les deux estimations (c.-à-d. l'estimation avec les poids originaux moins l'estimation avec les poids corrigés, divisée par l'erreur-type de cette différence). Le tableau 4 présente l'ensemble des statistiques-t.

Tableau 4
Impact sur le biais : statistiques-t pour certaines caractéristiques de la langue maternelle pour lesquelles les poids originaux et les poids corrigés ont été utilisés, pour les quatre aires de pondération les plus affectées par les corrections
Sommaire du tableau
Le tableau montre les résultats de Impact sur le biais : statistiques-t pour certaines caractéristiques de la langue maternelle pour lesquelles les poids originaux et les poids corrigés ont été utilisés, pour les quatre aires de pondération les plus affectées par les corrections. Les données sont présentées selon Langue maternelle (titres de rangée) et Ville prédominante dans l'aire de pondération et Statistique-t (figurant comme en-tête de colonne).
Langue maternelle	Ville prédominante dans l'aire de pondération	Statistique-t
Langue maternelle	Ville prédominante dans l'aire de pondération	Différence entre l'estimation calculée à l'aide des poids originaux et le chiffre de population	Différence entre l'estimation calculée à l'aide des poids corrigés et le chiffre de population	Différence entre les deux estimations
Français	Coaticook	1,92	1,75	1,62
Anglais	Coaticook	-0,51	-0,31	-1,49
Français	Rivière-du-Loup	1,15	1,02	0,93
Anglais	Rivière-du-Loup	-0,87	-0,72	-0,99
Français	Trois-Rivières	-0,79	-0,80	0,24
Anglais	Trois-Rivières	-0,41	-0,37	-0,63
Français	Drummondville	1,55	1,64	-1,19
Anglais	Drummondville	-0,60	-0,70	1,30
Source : Statistique Canada, Recensement de la population, 2016, analyse expérimentale.

Les valeurs absolues des statistiques-t des estimations fondées sur les poids originaux ainsi que celles fondées sur les poids corrigés sont inférieures à 2. Ceci indique que le biais des estimations n'est pas significatif, quel que soit l'ensemble de poids utilisé. Les valeurs absolues des statistiques-t sur les différences entre les deux estimations sont également inférieures à 2. Ceci indique que les deux estimations ne sont pas significativement différentes.

Pour évaluer l'impact sur la variance d'échantillonnage des estimations, les erreurs-types ont été calculées selon les deux scénarios de pondération. Les résultats sont présentés au tableau 5.

Tableau 5
Impact sur la variance d'échantillonnage : erreurs-types pour certaines caractéristiques de la langue maternelle en utilisant les poids originaux et les poids corrigés, pour les quatre aires de pondération les plus affectées par les corrections
Sommaire du tableau
Le tableau montre les résultats de Impact sur la variance d'échantillonnage : erreurs-types pour certaines caractéristiques de la langue maternelle en utilisant les poids originaux et les poids corrigés, pour les quatre aires de pondération les plus affectées par les corrections. Les données sont présentées selon Langue maternelle (titres de rangée) et Ville prédominante dans l'aire de pondération et Erreurs-types (figurant comme en-tête de colonne).
Langue maternelle	Ville prédominante dans l'aire de pondération	Erreurs-types
Langue maternelle	Ville prédominante dans l'aire de pondération	Estimation avec poids originaux	Estimation avec poids corrigés
Français	Coaticook	166	163
Anglais	Coaticook	140	137
Français	Rivière-du-Loup	87	85
Anglais	Rivière-du-Loup	60	59
Français	Trois-Rivières	137	137
Anglais	Trois-Rivières	92	91
Français	Drummondville	101	101
Anglais	Drummondville	72	72
Source : Statistique Canada, Recensement de la population, 2016, analyse expérimentale.

Les erreurs-types des estimations calculées à l'aide des poids corrigés sont très comparables à celles des estimations calculées à l'aide des poids originaux. Ceci indique que l'utilisation des poids originaux n'altérerait pas négativement la variance d'échantillonnage des estimations.

Les estimations de la langue maternelle ont été calculées après la correction des données pour les aires de pondération les plus affectées. L'évaluation démontre que l'utilisation des poids originaux n'altère pas l'exactitude des estimations en termes de biais et de variance d'échantillonnage. Dans les aires géographiques faisant l'objet de moins de corrections, l'impact des corrections devrait être encore moins perceptible. Comme les autres caractéristiques utilisées lors du calage, la « connaissance des langues officielles » n'est pas systématiquement retenue dans toutes les aires de pondération. En se fondant sur les résultats de l'évaluation ci-dessus, on conclut que la correction des poids n'est pas nécessaire pour assurer l'exactitude des estimations de l'échantillon du questionnaire détaillé.

Notes

Note de bas de page 1.

Les estimations pour cette section sont arrondies.

Retourner à la référence de note 1

Note de bas de page 2.

Pour les taux d'imputation détaillés par variable, veuillez consulter les guides de référence individuels.

Retourner à la référence de note 2

Note de bas de page 3.

Le principe consiste à comparer les données après deux séries du processus d'imputation, la différence entre les estimations obtenues pour chaque série étant le résultat de l'imputation. Les valeurs des deux imputations sont affichées pour le contexte.

Retourner à la référence de note 3

Note de bas de page 4.

Comprend tous les répondants qui ont indiqué une origine ethnique précise, soit comme leur seule origine ethnique, soit en plus d'une ou de plusieurs autres origines ethniques, p. ex. insulaire anglo-normande, cornouaillaise, anglaise, manx, écossaise, galloise ou origines des îles Britanniques, n.i.a.

Retourner à la référence de note 4

Note de bas de page 5.

Pour les SDR dont la population est de 250 habitants ou plus. Pour les variables liées au revenu, l'analyse se limite à la population âgée de 15 ans et plus et vivant dans des logements privés. Pour les variables ethnoculturelles, l'analyse se limite à la population vivant dans des logements privés et aux personnes hors famille de recensement, aux familles monoparentales et aux personnes en couple (avec ou sans enfants). Il faut noter que les étapes d'imputation n'ont pas toutes été refaites, seules celles nécessaires pour mener la présente analyse.

Retourner à la référence de note 5

Note de bas de page 6.

Plusieurs itérations du processus d'imputation ont été exécutées pour estimer la valeur espérée pour le montant imputé. Cela permet d'examiner l'effet direct de la correction de l'erreur, moins la variabilité due à l'imputation.

Retourner à la référence de note 6

Note de bas de page 7.

Un essai semblable a été mené à l'égard du taux de faible revenu. Dans ce cas, il n'a pas été possible d'utiliser les données d'un seul donneur. Les résultats étant semblables, ils ne sont pas présentés.

Retourner à la référence de note 7

Note de bas de page 8.

Ces aires de pondération sont définies par des aires de diffusion agrégées (ADA) et des super aires de diffusion agrégées (SADA). Voir la section « Pondération de l'échantillon du questionnaire détaillé du recensement » au chapitre 9.

Retourner à la référence de note 8

Note de bas de page 9.

La production de poids corrigés demande beaucoup de temps, alors les poids corrigés n'ont été produits que pour quelques aires de pondération à des fins d'évaluation seulement.

Retourner à la référence de note 9

Date de modification :: 2019-01-03

Sélection de la langue

Recherche et menus

Recherche

Notes

Notes

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur