Le portail a été désactivé. Veuillez contacter l'administrateur de votre portail.

Fiche explicative de la leçon : Échantillons biaisés et non biaisés Mathématiques

Dans cette fiche explicative, nous allons apprendre comment déterminer si un échantillon est biaisé ou non biaisé.

Dans la plupart des études statistiques où la taille de la population est grande, il est trop long et coûteux de collecter des données auprès de l’ensemble de la population. Pour gagner du temps et de l’argent, les chercheurs peuvent collecter des données dans un échantillon de cette population. En utilisant l’inférence statistique, les chercheurs peuvent estimer une caractéristique de la population à partir des statistiques de l’échantillon.

Cela soulève une question importante. Que se passe-t-il si l’échantillon sélectionné ne représente pas fidèlement la totalité de la population?Par exemple, on considère une collecte de données pour étudier les revenus par habitant dans une ville. En utilisant la méthode d’échantillonnage, on suppose que l’on sélectionne 100 personnes au hasard dans un certain quartier de la ville et que l’on collecte leurs données. Ces données fourniraient-elles une bonne estimation du revenu moyen par habitant de toute la ville?Pour répondre à cette question, on doit définir ce qu’est un échantillon représentatif d’une population.

Définition : Échantillon représentatif

Un échantillon est représentatif de la population si l’échantillon et la population partagent des répartitions similaires pertinentes des caractéristiques des individus pour la variable étudiée.

Dans l’exemple précédent, on a sélectionné la totalité de l’échantillon dans un quartier. On sait que les personnes vivant dans un même quartier ont tendance à avoir des revenus similaires et que les niveaux de revenu moyens peuvent différer considérablement d’un quartier à l’autre. En d’autres termes, la répartition des revenus dans ce quartier peut ne pas être similaire à celle de l’ensemble de la population. Par conséquent, cet échantillon n’est probablement pas représentatif de la population.

Dans le premier exemple, nous étudierons pourquoi une méthode d’échantillonnage donnée ne conduit pas à un échantillon représentatif de la population.

Exemple 1: Comprendre les échantillons représentatifs

Un centre de secours animalier veut savoir si les habitants de sa ville pensent que plus d’argent devrait être dépensé pour le bien-être des animaux. Ils prévoient de demander à un échantillon aléatoire de leurs visiteurs et de leurs volontaires de remplir un questionnaire. Pourquoi leur échantillon n’est-il pas représentatif de la population de la ville?

  1. Il peut y avoir une forte proportion d’enfants dans l’échantillon, ce qui faussera le résultat.
  2. On ne sait pas comment ils vont s’assurer que l’échantillon est aléatoire.
  3. Les gens ne voudront pas passer du temps à remplir le questionnaire.
  4. Les visiteurs et les volontaires du centre sont susceptibles d’être en faveur des dépenses pour le bien-être des animaux.

Réponse

Dans cet exemple, la population étudiée est le groupe des personnes vivant dans cette ville. Un échantillon est constitué avec les visiteurs et volontaires du centre de secours animalier. Cependant, un visiteur ou un volontaire est plus susceptible de se soucier du bien-être des animaux qu’un individu de la population générale de cette ville. Cela signifie que, du moins en ce qui concerne le bien-être des animaux, cet échantillon n’est pas représentatif de la population de la ville. Cette raison est donnée dans la réponse D.

Les autres réponses sont également partiellement valides, mais aucune d’entre elles n’est la meilleure raison. On considère les options restantes.

Les familles avec enfants sont plus susceptibles de visiter un centre de secours pour animaux, la réponse A est donc une préoccupation valable pour l’étude. Cependant, cette question ne concerne pas directement la question du bien-être des animaux, ce n’est donc pas la meilleure raison. Les réponses B et C décrivent des préoccupations apparaissant dans toute méthode d’échantillonnage, et elles ne sont pas des préoccupations particulièrement importantes pour cette étude.

Par conséquent, la raison principale pour laquelle cet échantillon n’est pas représentatif de la population de la ville est la réponse D.

Dans cet exemple, on a examiné pourquoi une méthode d’échantillonnage donnée ne conduit pas à un échantillon représentatif de la population. Pour constituer un échantillon représentatif de l’ensemble de la population, les chercheurs doivent s’assurer que chaque individu de la population a la même probabilité d’être sélectionné pour l’échantillon. Cela ne garantit pas un échantillon représentatif, il est toujours possible de « tomber sur un mauvais lot ». Par conséquent, il est également important de sélectionner un échantillon suffisamment grand pour réduire cet effet. La taille minimale d’un échantillon dépend à la fois des types de données et de la taille de la population, et ne sera pas explicitement abordée dans cette fiche explicative.

On revient à l’exemple de l’échantillonnage pour le revenu par habitant où on a sélectionné un échantillon aléatoire d’un certain quartier. On peut voir que constituer un échantillon aléatoire dans un certain quartier n’assure pas la même probabilité à chaque personne de la ville de faire partie de l’échantillon. En ce sens, sélectionner un échantillon restreint à un sous-ensemble de la population n’est pas une bonne méthode pour obtenir un échantillon représentatif de la population.

Considérons maintenant un exemple où nous devons déterminer quelle méthode conduira à un échantillon représentatif.

Exemple 2: Comprendre les échantillons représentatifs

Lequel des échantillons suivants est-il représentatif?

  1. Un élève veut savoir dans quelle mesure les élèves de son école aiment les cours de mathématiques, il envoie donc un questionnaire à tous les membres du club de mathématiques.
  2. Pour savoir comment les élèves se rendent à l’école, les représentants des élèves de chaque niveau scolaire interrogent un échantillon aléatoire de 20 élèves de leur niveau scolaire.
  3. Un hôpital veut enquêter sur les raisons pour lesquelles les gens vont aux urgences, des questionnaires sont donc distribués à un échantillon aléatoire de personnes qui attendent aux urgences un lundi matin.
  4. Une société d’études de marché veut savoir quelle quantité de déchets les gens recyclent, elle interroge donc 100 personnes au point de dépôt de recyclage de la ville.

Réponse

On rappelle qu’un échantillon est représentatif de la population si l’échantillon et la population partagent des répartitions similaires des caractéristiques des individus pertinentes pour la variable étudiée. Pour constituer un échantillon représentatif de l’ensemble de la population, on doit s’assurer que chaque individu de la population a la même probabilité d’être sélectionné pour l’échantillon.

Pour déterminer si une méthode d’échantillonnage conduira à un échantillon représentatif, on doit d’abord identifier la population et la variable étudiée, puis se demander si chaque individu de la population a la même probabilité d’être sélectionné pour l’échantillon. Si chaque individu n’a pas la même probabilité de faire partie de l’échantillon, on doit alors se demander si cet écart peut influencer la répartition des caractéristiques des individus par rapport à la variable d’étude. On étudie chaque réponse séparément.

  1. La population étudiée est le groupe des élèves de cette école, et la variable étudiée est le goût des élèves pour les cours de mathématiques. Dans cette réponse, l’échantillon est le club de mathématiques. Les élèves qui ne sont pas dans le club de mathématiques ne peuvent pas être sélectionnés pour faire partie de l’échantillon. En particulier, on peut voir que les élèves qui font partie du club de mathématiques ont tendance à aimer les cours de mathématiques plus que les élèves qui n’en font pas partie. Par conséquent, la répartition des élèves qui aiment les mathématiques dans cet échantillon n’est probablement pas similaire à celle de l’ensemble de la population. Ainsi, cet échantillon n’est pas représentatif de l’ensemble de la population.
  2. La population étudiée est le groupe des élèves de cette école, et la variable étudiée est le mode de transport d’un élève vers l’école. Dans cette réponse, un échantillon aléatoire de 20 élèves de chaque niveau scolaire est sélectionné. En supposant que le nombre d’élèves dans chaque niveau est similaire, cette méthode d’échantillonnage donne la même probabilité à chaque élève de l’école d’être sélectionné dans l’échantillon. La répartition des élèves en fonction de leur mode de transport pour aller à l’école dans cet échantillon est donc susceptible d’être similaire à celle de l’ensemble de la population. Par conséquent, il s’agit d’un échantillon représentatif.
  3. La population étudiée est le groupe de personnes qui se rendent aux urgences, et la variable étudiée est la raison pour laquelle une personne va aux urgences. Dans cette réponse, l’échantillon est sélectionné parmi les personnes qui attendent aux urgences un lundi matin. Selon cette méthode d’échantillonnage, les personnes qui se rendent aux urgences un autre jour de la semaine ne peuvent pas être sélectionnées. En particulier, les personnes se rendant aux urgences un jour de semaine peuvent être plus susceptibles d’y aller à cause d’un accident de travail que des patients venant le week-end. Par conséquent, la distribution de la raison pour cet échantillon peut être différente de celle de l’ensemble de la population. Par conséquent, ce n’est pas un échantillon représentatif.
  4. La population étudiée est le groupe des personnes vivant dans la ville, et la variable étudiée est la quantité qu’un individu recycle. Dans cette réponse, l’échantillon est sélectionné parmi les personnes du point de dépôt de recyclage de la ville. Selon cette méthode d’échantillonnage, les personnes qui ne vont pas au point de dépôt de recyclage de la ville ne peuvent pas être sélectionnées. En particulier, le grand groupe des personnes qui ne recyclent pas ou qui recyclent dans d’autres lieux est exclu de cet échantillon. Par conséquent, la répartition de la quantité recyclée peut être différente pour cet échantillon que pour l’ensemble de la population. Ainsi, ce n’est pas un échantillon représentatif.

Le seul échantillon représentatif est celui de la réponse B.

Dans cet exemple, nous avons déterminé si une méthode d’échantillonnage est susceptible de produire un échantillon représentatif de l’ensemble de la population. Dans de nombreux cas lorsque nous imposons des restrictions arbitraires aux individus que nous sélectionnons pour l’échantillon, nous constituons probablement un échantillon qui n’est pas représentatif de la population.

Définition : Échantillonnage biaisé

L’échantillonnage biaisé est une méthode de constitution d’un échantillon qui privilégie certaines valeurs de la variable étudiée. Un échantillon obtenu selon une méthode d’échantillonnage biaisée n’est probablement pas représentatif de l’ensemble de la population.

On revient à l’exemple d’échantillonnage pour le revenu par habitant dans une ville où l’échantillon avait été sélectionné dans un certain quartier de la ville. Ici, la variable étudiée est le revenu d’une personne. On a déjà observé que cette méthode d’échantillonnage conduirait probablement à un échantillon non représentatif de l’ensemble de la population. Sélectionner des individus de manière aléatoire dans un quartier favorise un niveau de revenu spécifique majoritaire dans ce quartier, ce qui signifie que cette méthode d’échantillonnage favorise un intervalle spécifique de valeurs de la variable. La méthode d’échantillonnage est donc biaisée.

Un échantillon obtenu par une méthode d’échantillonnage biaisée est appelé échantillon biaisé. Un échantillon biaisé est très probablement non représentatif de la population. D’un autre côté, si une méthode d’échantillonnage n’est pas biaisée, alors l’échantillon obtenu est appelé un échantillon non biaisé. Un échantillon non biaisé est susceptible de donner un échantillon représentatif. Cependant, comme discuté précédemment, une méthode d’échantillonnage non biaisée peut ne pas nécessairement donner un échantillon représentatif, surtout si la taille de l’échantillon n’est pas suffisamment grande.

Étudions un exemple où nous devons déterminer si une méthode d’échantillonnage conduit à un échantillon biaisé.

Exemple 3: Sélectionner un échantillon

Pierre veut connaître la proportion d’élèves de cinquième qui ont déjà été à l’étranger. Il y a 250 élèves en cinquième dans son école. Il décide de les numéroter de 1 à 250, de générer une liste aléatoire de 40 nombres compris entre 1 et 250, puis d’interroger les élèves correspondants. Son échantillon est-il biaisé?

Réponse

On rappelle qu’un échantillonnage biaisé est une méthode de constitution d’un échantillon qui favorise certaines valeurs de la variable étudiée. La variable étudiée est l’information indiquant si un élève a été à l’étranger ou non.

La méthode d‘échantillonnage de Pierre ne favorise pas un élève qui a été à l’étranger par rapport à un élève qui n’a pas été à l’étranger, et inversement. Cette méthode d’échantillonnage donne à chaque individu de la population la même probabilité de faire partie de l’échantillon, ce qui conduira probablement à un échantillon représentatif de la population. Par conséquent, sa méthode d’échantillonnage est non biaisée.

Comme son échantillon est issu d’une méthode d’échantillonnage non biaisée, son échantillon est non biaisé.

Étudions un autre exemple où nous devons déterminer si une méthode d’échantillonnage est biaisée.

Exemple 4: Sélectionner un échantillon

Francesca mène un projet de recherche pour savoir si les élèves de son école mangent sainement. Elle décide d’interroger ses amis qui font de la gymnastique avec elle. Son échantillon est-il biaisé?

Réponse

On rappelle que l’échantillonnage biaisé est une méthode de formation d’un échantillon qui favorise certaines valeurs de la variable étudiée. Un échantillonnage biaisé conduira probablement à un échantillon non représentatif de la population. Un échantillon résultant d’un échantillonnage biaisé est appelé un échantillon biaisé.

Dans cet exemple, Francesca constitue un échantillon avec le groupe de ses amis qui font de la gymnastique avec elle. La variable étudiée dans cet exemple est l’information indiquant si les élèves de son école mangent sainement. Il est probable que ses amis qui font de la gymnastique avec elle soient plus susceptibles de s’intéresser à un style de vie et une alimentation sains. Cela signifie que cette méthode d’échantillonnage favorise les personnes qui mangent sainement. Cela n’est pas représentatif de la population, qui est le groupe des élèves dans son école. Par conséquent, il s’agit d’une méthode d’échantillonnage biaisée.

Comme son échantillon résulte d’une méthode d’échantillonnage biaisée, son échantillon est biaisé.

Dans cet exemple, le biais de la méthode d’échantillonnage est évident car l’expérimentateur a restreint l’échantillon à un groupe qui est évidemment lié à la variable étudiée, qui est les habitudes alimentaires saines. Même si l’échantillon était sélectionné dans un groupe spécifique n’étant apparemment pas relié à des habitudes alimentaires saines, l’échantillon pourrait être biaisé en raison d’autres facteurs moins évidents.

En pratique, un échantillonnage biaisé est généralement une conséquence involontaire due à l’oubli d’une source possible de biais. Même lorsque l’on fait très attention à sélectionner échantillon de manière aléatoire, il est toujours possible que l’on ait oublié un détail apparemment mineur. Une petite omission à cet égard peut avoir de lourdes conséquences et corrompre et invalider un ensemble de données collectées.

Une des méthodes d’échantillonnage biaisée les plus courantes est l’échantillonnage de convenance.

Définition : Échantillonnage de convenance

L’échantillonnage de convenance est une méthode de constitution d’un échantillon avec des volontaires.

Les sondages volontaires attirent des personnes qui ont certains types d’opinions sur la variable étudiée. Par conséquent, constituer un échantillon avec des volontaires est considéré comme un échantillon biaisé. Malheureusement, c’est le type de données le plus courant que l’on rencontre. Les critiques de produits ou de films sur les sites Web, les sondages volontaires à la télévision ou à la radio et les sondages postés sur les réseaux sociaux sont tous des exemples d’échantillons de convenance. Cette méthode est très courante car il s’agit de la méthode la plus simple pour collecter des données. Lorsque l’on traite des données recueillies par sondage, on doit être conscient qu’il s’agit d’un échantillon biaisé qui n’est pas représentatif de la population.

Dans le dernier exemple, nous allons examiner différents scénarios d’échantillonnage et déterminer lequel des échantillons résultants est représentatif.

Exemple 5: Sélectionner des échantillons

Un directeur d’école souhaite savoir ce que les élèves pensent de la qualité de l’enseignement de l’école. Lequel de ces échantillons est non biaisé?

  1. Un questionnaire est disponible à la bibliothèque pour toute personne qui veut participer à l’enquête.
  2. Une liste des élèves garçons à interroger est générée de manière aléatoire.
  3. Une liste des élèves à interroger est générée de manière aléatoire.
  4. Tous les élèves de troisième sont interrogés.
  5. Une liste des élèves filles à interroger est générée de manière aléatoire.

Réponse

On rappelle que l’échantillonnage biaisé est une méthode de constitution d’un échantillon qui favorise certaines valeurs de la variable étudiée. La variable étudiée dans cet exemple est l’opinion d’un élève sur la qualité de l’enseignement de l’école. On étudie la méthode de chaque option. On doit déterminer si la méthode utilisée pour constituer l’échantillon favorise les élèves qui ont certains types d’opinions sur la qualité de l’enseignement à l’école.

  1. Dans cette option, l’échantillon est constitué de volontaires parmi les élèves qui viennent à la bibliothèque. Cette méthode d’échantillonnage est biaisée pour deux raisons. Tout d’abord, il s’agit d’un exemple de d’échantillonnage de convenance. On rappelle que l’échantillonnage de convenance est une méthode de constitution d’un échantillon avec des volontaires. L’échantillonnage de convenance est souvent biaisé car il attire des individus qui ont déjà certains types d’opinions sur la variable étudiée. Dans ce scénario, il est susceptible d’attirer des élèves qui détestent ou adorent l’enseignement de l’école, laissant de côté la grande partie de la population qui n’a pas d’opinion marquée.
    Une autre source de biais dans cette méthode d’échantillonnage est due au fait que les questionnaires sont laissés dans une bibliothèque. Une bibliothèque attire des élèves qui aiment étudier et ces élèves sont plus susceptibles d’avoir une bonne opinion de la qualité de l’enseignement de l’école. En d’autres termes, cette méthode d’échantillonnage favorise les élèves qui ont une bonne opinion de la qualité de l’enseignement de l’école, ce qui signifie qu’elle conduit à un échantillon biaisé.
  2. Dans cette option, l’échantillon est généré de manière aléatoire parmi les garçons uniquement. Cela exclut toute la population féminine de l’école. Il est possible que les garçons aient un avis différent sur la qualité de l’enseignement par rapport aux filles. Par conséquent, cette méthode d’échantillonnage favorise les opinions des garçons, ce qui signifie qu’elle conduit à un échantillon biaisé.
  3. Dans cette option, un échantillon aléatoire est choisi parmi la population entière donc chaque individu a la même probabilité de faire partie de l’échantillon. Cette méthode d’échantillonnage ne favorise pas un élève ayant un certain type d’opinion sur la qualité de l’enseignement à l’école, ce qui signifie que cette méthode d’échantillonnage est non biaisée. Par conséquent, cet échantillon est non biaisé.
  4. Dans cette option, seuls les élèves de troisième sont sélectionnés pour l’échantillon. Ce serait un bon échantillon si la variable étudiée était la qualité de l’enseignement dans les classes de troisième et non dans toute l’école. Si la qualité de l’enseignement en troisième est moins bonne que celle des autres années, cette méthode d’échantillonnage favorisera les élèves ayant une opinion peu favorable de la qualité d’enseignement. Cela signifie que cette méthode d’échantillonnage est biaisée. Par conséquent, cet échantillon est biaisé.
  5. Dans cette option, seules les élèves filles sont sélectionnées pour l’échantillon. Comme pour la réponse B, cette méthode d’échantillonnage est biaisée. Par conséquent, cet échantillon est biaisé.

Le seul échantillon non biaisé est celui de l’option C.

Terminons par résumer quelques concepts importants.

Points clés

  • Un échantillon est représentatif de la population si l’échantillon et la population partagent des répartitions similaires des caractéristiques des individus pertinentes pour la variable étudiée.
  • Pour constituer un échantillon représentatif de l’ensemble de la population, les chercheurs doivent s’assurer que chaque individu de la population a la même probabilité d’être sélectionné pour l’échantillon. Cela ne garantit cependant pas un échantillon représentatif, car il est toujours possible de « tomber sur un mauvais lot ». Par conséquent, il est également important de sélectionner un échantillon suffisamment grand pour réduire cet effet.
  • L’échantillonnage biaisé est une méthode de constitution d’un échantillon qui favorise certaines valeurs de la variable étudiée. Un échantillon obtenu à partir d’une méthode d’échantillonnage biaisée n’est probablement pas représentatif de l’ensemble de la population.
  • L’échantillonnage de convenance est une méthode de constitution d’échantillon avec des volontaires. L’échantillonnage de convenance est une des méthodes d’échantillonnage biaisées les plus courantes.

Nagwa utilise des cookies pour vous garantir la meilleure expérience sur notre site. En savoir plus sur notre Politique de Confidentialité.