Dans cette fiche explicative, nous allons apprendre comment prélever un échantillon stratifié.
En général, un ensemble de données consiste en des observations ou des mesures provenant d’individus d’une population, ou d’un échantillon de la population, en relation avec la variable ou les variables étudiées.
Notre objectif en collectant des données est d’obtenir des informations sur la population et nous avons plusieurs méthodes statistiques à notre disposition pour cela. Cependant, pour que nos résultats et conclusions soient aussi précis et représentatifs que possible, la manière dont nous collectons les données est elle-même une partie importante de la méthodologie statistique.
Dans certains cas, il peut être possible de collecter des données sur une population entière. Par exemple, si nous souhaitons analyser le niveau de tennis des 100 meilleurs joueurs de tennis sur une certaine an, nous pourrions collecter des données sur tous les matchs professionnels joués par les 100 meilleurs joueurs pendant cette an.
Supposons maintenant que nous souhaitons plutôt analyser des caractéristiques des balles de tennis utilisées dans les tournois professionnels lors d’une certaine an telles que la masse, le diamètre et la hauteur de rebond.
Il ne serait ni raisonnable ni faisable d’essayer de collecter des données sur l’ensemble de la population des balles de tennis utilisées cette an. Au lieu de cela, nous pourrions prélever un ou plusieurs échantillons et collecter des mesures sur les balles de ces échantillons. À partir des données de l’échantillon et en utilisant des méthodes statistiques, nous pourrions tirer des conclusions sur l’ensemble de la population des balles de tennis.
Lorsque nous échantillonnons des données, notre objectif est de toujours essayer de prélever un échantillon représentatif, c’est-à-dire un échantillon qui représente ou reflète avec précision la population dans laquelle il est prélevé. Un autre terme pour cela est un échantillon non biaisé, où aucune partie de la population n’est surreprésentée ou sous-représentée.
Nous pouvons utiliser plusieurs méthodes d’échantillonnage pour collecter des données, dont l’une est appelée échantillonnage aléatoire.
Définition : Échantillonnage aléatoire et échantillonnage aléatoire simple
Un échantillon aléatoire est un sous-ensemble d’éléments choisis dans une population de telle sorte que chaque individu de la population a une chance d’être sélectionné.
Un échantillon aléatoire simple est un échantillon dans lequel chaque individu de la population a la même chance d’être sélectionné.
Il est fréquent qu’une population contienne des subdivisions naturelles sans chevauchement, que l’on appelle des strates. Dans ce cas, nous pouvons utiliser un échantillonnage aléatoire pour collecter des données au sein de chaque strate et les regrouper en un échantillon représentant l’ensemble de la population.
Par exemple, la population des joueurs de tennis professionnels est composée d’hommes et de femmes. Si les proportions des joueurs masculins et féminins ne sont pas égales, cette différence doit être reflétée dans tout échantillon qui est prélevé. Si ce n’est pas le cas et si l’échantillon est prélevé directement dans la population dans son ensemble, les groupes d’hommes et de femmes peuvent ne pas être représentés proportionnellement dans l’échantillon. Nous pouvons remédier à cela en prenant des échantillons aléatoires d’un nombre proportionnel de joueurs masculins et féminins, que nous regroupons ensuite pour former l’échantillon global.
Ce processus est appelé échantillonnage aléatoire stratifié et est défini comme suit.
Définition : Échantillonnage aléatoire stratifié
L’échantillonnage aléatoire stratifié est une méthode d’échantillonnage utilisée lorsqu’une population est naturellement subdivisée en groupes distincts plus petits ne se chevauchant pas, que l’on appelle des strates.
Des échantillons aléatoires sont prélevés dans chaque strate et regroupés pour former un échantillon global. La taille de l’échantillon aléatoire dans chaque strate reflète la taille de cette strate au sein de la population. Par conséquent, les strates sont représentées dans l’échantillon final dans les mêmes proportions que dans la population.
Pour une population de éléments et un échantillon global de éléments, on utilise la formule suivante pour calculer la taille de l’échantillon d’une strate contenant éléments :
Ou bien, si nous connaissons le pourcentage de la population totale qui appartiennent à une seule strate, la taille de l’échantillon de cette strate est égale à .
À titre d’exemple, supposons que des joueurs de tennis professionnels enregistrés sont des hommes et que sont des femmes. Si nous voulons prendre un petit échantillon représentatif de, par exemple, 10 individus parmi la population des joueurs de tennis professionnels, notre échantillon doit être composé de
Si nous savons plutôt que sur une population de 80 joueurs de tennis professionnels, 48 sont des hommes et 32 sont des femmes, en utilisant la formule de la taille de l’échantillon pour les deux strates, nous obtenons
Étudions quelques exemples où nous mettons en pratique notre compréhension de la définition de l’échantillonnage aléatoire stratifié.
Exemple 1: Déterminer si une méthode d’échantillonnage est aléatoire stratifiée
Pour un sondage sur les universités auxquelles les élèves du lycée souhaitent s’inscrire, un échantillon de 2 000 élèves a été sélectionné aléatoirement sur une population de 40 000. S’agit-il d’un échantillonnage stratifié ?
Réponse
L’échantillonnage aléatoire stratifié est utilisé lorsqu’une population est naturellement subdivisée en groupes ou strates. Un tel échantillon reflète les proportions de chaque strate au sein de la population. Ce résultat est obtenu en prélevant des échantillons aléatoires dans chaque strate proportionnellement à la taille de la strate au sein de la population dans son ensemble.
Dans cet exemple, la population est de 40 000 étudiants. Nous ne savons pas si la population est subdivisée en strates donc nous devons supposer que l’échantillon aléatoire de 2 000 étudiants a été sélectionné directement dans la population. Par conséquent, cette méthode n’est pas considérée comme un échantillonnage stratifié.
Le résultat de l’exemple ci-dessus est utile pour la prochaine question, où nous étudions la définition de l’échantillonnage aléatoire stratifié.
Exemple 2: Échantillonnage aléatoire stratifié
Laquelle des affirmations suivantes n’est pas vraie à propos de l’échantillonnage stratifié ?
- L'échantillonnage aléatoire stratifié s'appelle également « échantillonnage aléatoire proportionnel ».
- L'échantillonnage aléatoire stratifié permet aux chercheurs d'obtenir un échantillon à partir d'une population qui représente le mieux l'ensemble de la population étudiée.
- L’échantillonnage stratifié est la sélection aléatoire de données dans l’ensemble d’une population.
- L’échantillonnage aléatoire stratifié est une méthode d’échantillonnage qui implique la division d’une population en sous-groupes plus petits appelés strates.
- L’échantillon aléatoire stratifié est un outil de mesure statistique.
Réponse
Nous rappelons que l’échantillonnage aléatoire stratifié est une méthode d’échantillonnage lorsqu’une population peut être naturellement subdivisée en groupes distincts plus petits ne se chevauchant pas, que l’on appelle des strates.
Des échantillons aléatoires sont prélevés dans chaque strate et regroupés pour former un échantillon global. La taille de l’échantillon aléatoire prélevé dans chaque strate reflète la taille de cette strate au sein de la population.
Voyons maintenant si chacune des affirmations ci-dessus correspond à cette définition.
- L'échantillonnage aléatoire stratifié s'appelle également « échantillonnage aléatoire proportionnel ». (Vrai ou faux ? )
Pour un échantillonnage aléatoire stratifié, la population étudiée est divisée en groupes ou strates. La taille de l’échantillon prélevé dans chaque strate reflète la proportion de la population représentée par cette strate. Par conséquent, il ne serait pas incorrect de donner un autre nom à l’échantillonnage aléatoire stratifié tel qu’échantillonnage aléatoire proportionnel - L’échantillonnage aléatoire stratifié permet aux chercheurs d’obtenir un échantillon de la population qui représente le mieux l’ensemble de la population étudiée. (Vrai ou faux ? )
On utilise un échantillonnage aléatoire stratifié lorsque la population peut être divisée en groupes ou strates qui ne se chevauchent pas. Les proportions de ces groupes dans la population sont calculées et les mêmes proportions sont appliquées aux échantillons choisis au hasard dans chaque groupe. Cela signifie que les différentes classes sont représentés proportionnellement dans l’échantillon final. Par conséquent, aucun groupe ne doit être surreprésenté ou sous-représenté et l’échantillon reflète la composition proportionnelle de l’ensemble de la population. Un tel échantillon représentera le mieux l’ensemble de la population étudiée. Par conséquent, l’affirmation B est vraie. - L’échantillonnage stratifié est la sélection aléatoire de données dans l’ensemble d’une population. (Vrai ou faux ? )
Par définition, un échantillon aléatoire stratifié est un échantillon qui regroupe un certain nombre d’échantillons individuels prélevés sur des groupes distincts au sein de la population. La taille de l’échantillon de chaque groupe reflète la proportion de ce groupe, ou strate, dans la population. Les données ne sont donc pas sélectionnées de manière aléatoire parmi l’ensemble de la population. Par conséquent, cette affirmation concernant l’échantillonnage stratifié est fausse. - L’échantillonnage aléatoire stratifié est une méthode d’échantillonnage qui implique la division d’une population en sous-groupes plus petits appelés strates. (Vrai ou faux ? )
Par définition, l’échantillonnage aléatoire stratifié implique que la population soit divisée en sous-groupes plus petits. Ces petits groupes sont appelés strates et la taille de l’échantillon de chaque groupe reflète la taille de ce groupe au sein de la population. Par conséquent, cette affirmation est vraie. - Un échantillon aléatoire stratifié est un outil de mesure statistique. (Vrai ou faux ? )
Un échantillon aléatoire stratifié représente les proportions des sous-groupes distincts, ou strates, au sein d’une population. En mesurant la population et donc un échantillon, de cette manière, nous maintenons les proportions inhérentes à la population donc les résultats statistiques et les prédictions obtenus à partir des données de l’échantillon reflètent la composition réelle de la population. De ce fait, l’échantillon aléatoire stratifié est un outil de mesure statistique. Par conséquent, cette affirmation à propos de l’échantillonnage stratifié est également vraie.
Nous concluons donc que seule l’affirmation C n’est pas vraie.
Dans le prochain exemple, nous allons calculer la taille de l’échantillon pour une strate au sein d’une population.
Exemple 3: Calculer la taille de l’échantillon dans une strate étant donnée la proportion qu’elle représente
Dans une étude des ressources humaines sur les salaires dans une certaine entreprise ayant 1 000 employés, les employés ont été divisés en hommes et femmes. Si le pourcentage total de femmes dans l'entreprise était de 60 pour cent et qu'un échantillon de 40 personnes a été prélevé, alors quel était le nombre d'hommes dans l'échantillon ?
Réponse
Comme la population, c’est-à-dire les employés de l’entreprise, est naturellement subdivisée en deux strates, hommes et femmes, nous utilisons un échantillonnage aléatoire stratifié comme méthode d’échantillonnage. Cela signifie que l’échantillon reflète les proportions d’hommes et de femmes dans l’entreprise.
Étant donné que 60 pour cent des employés sont des femmes, 60 pour cent de l’échantillon doivent également être des femmes. Cela signifie que le reste, c’est-à-dire pour cent, de l’échantillon doivent être des hommes. Nous savons que l’échantillon est composé de 40 personnes. Donc, 40 pour cent de ces 40 personnes doivent être des hommes. C’est-à-dire
Exemple 4: Calculer la taille de l’échantillon d’une strate étant donnée la taille de la strate et de la population
Baptiste a besoin de mener une étude pour déterminer si les élèves de son école aiment jouer au football. Il décide de diviser les élèves en deux groupes, garçons et filles, sachant que l'école compte un total de 200 élèves, dont 80 sont des filles.
Si Baptiste décide que la taille de son échantillon est de 50 élèves, combien de filles doit-il sélectionner pour l’étude ?
Réponse
Comme la population des élèves est divisée en 2 strates distinctes, les garçons et les filles, la méthode d’échantillonnage appropriée est l’échantillonnage aléatoire stratifié.
Un échantillon aléatoire stratifié est un échantillon qui regroupe un certain nombre d’échantillons aléatoires provenant de groupes distincts au sein de la population. La taille de l’échantillon de chaque groupe reflète la proportion de ce groupe, ou strate, dans la population.
En appliquant cela à la population d’élèves, 80 élèves sur 200 sont des filles. Par conséquent, la proportion de filles est de , ce qui, en pourcentage, donne .
Cela signifie que pour refléter les proportions de garçons et de filles dans la population, de l’échantillon de Baptiste doivent être des filles. La taille de l’échantillon de Baptiste est de 50 élèves et de 50 donne
Par conséquent, Baptiste doit sélectionner 20 filles pour l’étude.
Notez que nous aurions pu arriver à cette conclusion d’une manière légèrement différente, en utilisant la formule de la taille de l’échantillon d’une strate. Pour une population de éléments et une taille globale de l’échantillon de éléments, la taille de l’échantillon d’une strate contenant éléments est en effet
Dans ce cas, , et donc
Dans le prochain exemple, nous appliquons un échantillonnage aléatoire stratifié à une population qui a été divisée en 3 groupes.
Exemple 5: Taille de l’échantillon d’une strate à partir des tailles des strates et de la taille de la population
Un scientifique décide de mener un sondage sur les effets d’un médicament dans une ville de 100 000 habitants. Il les divise en trois groupes en fonction de leur zone : centre-ville, périphérie et banlieue. Il y a 10 000 personnes en banlieue et 30 000 personnes en périphérie. Si le scientifique décide de prélever un échantillon de 1 000 personnes, combien de personnes vivant en banlieue doivent-elles être incluses ?
Réponse
Comme la ville est divisée en trois groupes distincts, ou strates, une méthode d’échantillonnage appropriée est un échantillonnage aléatoire stratifié.
On rappelle qu’un échantillon aléatoire stratifié est un échantillon qui regroupe plusieurs échantillons prélevés dans des groupes distincts de la population. La taille de l’échantillon de chaque groupe reflète la proportion de ce groupe, ou strate, dans la population.
Dans ce cas, nous connaissons la population totale et le nombre de personnes vivant en banlieue et en périphérie, mais pas dans le centre-ville :
Bien que nous n’ayons pas besoin de connaître le nombre de personnes du centre-ville pour répondre à la question, nous notons qu’il doit y avoir personnes vivant en centre-ville.
Le scientifique souhaite prélever un échantillon représentatif de 1 000 personnes de la population et nous devons déterminer combien d’entre elles doivent être sélectionnées en banlieue. En appliquant un échantillonnage aléatoire stratifié, la proportion de personnes de banlieue de l’échantillon doit être la même que la proportion de personnes de banlieue dans l’ensemble de la population. Il y a 10 000 personnes en banlieue, soit une proportion de la population totale de
En pourcentage, cela donne . Par conséquent, de l’échantillon doivent être des gens vivant en banlieue. Si la taille de l’échantillon est de 1 000 personnes, alors de cela représente
Par conséquent, 100 personnes de banlieue doivent être incluses dans l’échantillon.
Notez que nous aurions pu arriver à cette conclusion d’une manière légèrement différente, en utilisant la formule de la taille de l’échantillon de strates. Pour une population de éléments et une taille globale de l’échantillon de éléments, la taille de l’échantillon, , d’une strate contenant éléments est
Dans ce cas, , et donc
Il existe une méthode d’échantillonnage aléatoire reliée à l’échantillonnage aléatoire stratifié utilisée pour estimer la taille de la population, appelée méthode de capture-marquage-recapture. Étudions un exemple.
Dans le cadre d’un grand projet de relogement, un refuge pour chats souhaite estimer la population de chats errants dans une zone urbaine.
En un jour, 20 chats errants sont capturés, marqués et relâchés. Le lendemain, 12 chats sont capturés, dont 4 étaient déjà marqués. En proportion, : c’est-à-dire qu’un tiers, ou approximativement , des chats capturés le jour 2 étaient déjà marqués.
On peut supposer que la même proportion de chats ont été marqués parmi l’ensemble de la population. Par conséquent, on estime que de la population représente 20 chats. Si cela représente un tiers de la population, alors la population totale est trois fois supérieure à ceci. Soit chats.
Définition : Méthode de capture-marquage-recapture pour estimer la taille de la population
En assimilant la capture à une sélection aléatoire dans une population pour estimer la taille de la population , soit le nombre d’individus qui sont initialement capturés, marqués, puis relâchés.
Si est le nombre d’individus de la population qui sont ensuite capturés et est le nombre de ceux qui sont déjà marqués, alors la taille globale de la population est donnée par
Dans l’exemple ci-dessus, on a , et . Par conséquent,
On peut définir cette méthode autrement comme suit.
Exemple 6: Utiliser la méthode de capture-marquage-recapture pour estimer la taille d’une population
Dans une étude des ressources humaines sur les salaires dans une entreprise, les employés sont divisés entre hommes et femmes. Le pourcentage total de femmes dans l’entreprise est de 60 pour cent. Un échantillon de 10 employés est sélectionné dans l’entreprise. Les hommes de cet échantillon représentent 5 pour cent des hommes de l’entreprise. Quel est le nombre total d’employés dans cette entreprise ?
Réponse
Pour commencer, on note que 60 pour cent des employés de l’entreprise sont des femmes et que les employés sont divisés entre hommes et femmes. Cela signifie que pour cent des employés doivent être des hommes. Si on définit comme le nombre total d’employés dans l’entreprise, alors le nombre d’employés hommes est égal à 40 pour cent de , c’est-à-dire , ou .
Pour déterminer le nombre total d’employés , on utilise la formule de capture-marquage-recapture. Elle indique que la taille de la population où est le nombre initialement capturé, marqué, puis relâché, est le nombre capturé par la suite et est le nombre de ceux qui étaient déjà marqués.
Dans ce cas, en identifiant « tous les employés masculins » comme étant ceux « capturés, marqués et relâchés », on a .
La question indique que la taille de l’échantillon, c’est-à-dire le nombre « capturés » par la suite, , est égal à 10. En outre, les hommes de cet échantillon représentent 5 pour cent des employés masculins de l’entreprise. Cela signifie que
Par conséquent, on a
Substituer ces valeurs dans la formule de capture-marquage-recapture de la taille de la population nous donne alors
Par conséquent, le nombre total d’employés dans l’entreprise est de 200.
Nous allons terminer cette fiche explicative par résumer certains points clés.
Points clés
- Un échantillon aléatoire est un sous-ensemble d’éléments sélectionnés dans une population tel que chaque individu de la population a une chance d’être sélectionné. Un échantillon aléatoire simple est un échantillon dans lequel chaque individu de la population a la même chance d’être sélectionné.
- Un échantillonnage aléatoire stratifié est une méthode d’échantillonnage utilisée lorsqu’une population peut être subdivisée en groupes distincts plus petits, que l’on appelle des strates. Des échantillons aléatoires sont prélevés dans chaque strate, dont les tailles sont proportionnelles à celles de chaque strate au sein de la population. Ces petits échantillons sont ensuite regroupés pour former un échantillon représentatif de l’ensemble de la population.
- Pour une population de éléments et une taille globale de l’échantillon de éléments, on utilise la formule suivante pour calculer la taille de l’échantillon d’une strate contenant éléments : Sinon, si on connaît le pourcentage d’individus de la population totale qui appartiennent à une strate, la taille de l’échantillon de cette strate est .
- La méthode de capture-marquage-recapture est une méthode d’échantillonnage proportionnel utilisée pour estimer la taille globale de la population , telle que Ici, est le nombre d’individus de la population initialement capturés, marqués et relâchés, est le nombre d’individus de la population capturés par la suite et est le nombre d’entre eux qui sont déjà marqués.