Dans cette fiche explicative, nous apprendrons à choisir entre un échantillon et l’ensemble de la population.
Rappelons que les données initiales sont les informations collectées directement par le chercheur. Nous savons qu’il existe plusieurs sources différentes de données initiales : les questionnaires, les entretiens, le recensement. L’un des avantages des données initiales est la possibilité de contrôler la source à partir de laquelle nous les collectons. Par exemple, considérons un scénario où nous collectons des données pour étudier le revenu par habitant dans une ville à l’aide de questionnaires envoyés par la poste. Nous pouvons envoyer les questionnaires à chaque personne dans la ville ou nous pouvons au préalable sélectionner au hasard quelques personnes et leur envoyer nos questionnaires.
Définissons d’abord le vocabulaire utilisé.
Définition : Population, individus et échantillons
Une population est l’ensemble des personnes ou des objets qui sont la cible d’une étude statistique.
Un individu est une personne ou un objet unique dans la population.
Un échantillon est un groupe d’individus plus petit que la population.
La méthode de collecte des données peut être divisée en deux méthodes : la méthode de la population et la méthode d’échantillon. La méthode de la population signifie que nous collectons des données à partir de la population entière, tandis que la méthode d’échantillon signifie que nous collectons des données à partir d’échantillons choisis au hasard. D’après l’exemple précédent de collecte de données sur revenus, utiliser la méthode de la population signifie que nous enverrons nos questionnaires à chaque personne dans la ville, tandis que l’utilisation de la méthode par échantillon signifie que nous n’enverrons nos questionnaires qu’à quelques personnes sélectionnées au hasard. La méthode de la population fournira des données plus précises que la méthode par échantillon, mais elle est aussi beaucoup plus chère. Ainsi, nous devons considérer ces avantages et ces inconvénients avant de collecter ces données.
Commençons par un exemple où il est possible de collecter des données directement auprès de la population.
Exemple 1: Distinguer population et échantillon
Lequel des ensembles de données suivants serait le plus adapté pour déterminer la note moyenne à un examen dans une classe avec 25 élèves ?
- Des échantillons
- La population
Réponse
Rappelons qu’une population est le groupe complet des personnes ou des objets qui sont la cible d’une étude statistique et qu’un échantillon est un groupe d’individus plus petit que la population. De toute évidence, la collecte de données auprès de la population donne des résultats plus précis que la collecte par échantillons. S’il est possible et pas trop coûteux de collecter des données auprès de la population, il est préférable de le faire plutôt que d’avoir recours à un échantillon.
Dans cet exemple, la population est un groupe de 25 étudiants car l’objectif de notre étude statistique est d’obtenir la moyenne de cette classe lors d’un examen. Il n’est ni difficile ni coûteux de collecter les notes des 25 élèves, il est donc préférable de collecter les données de chacun d’eux.
L’option B, la population, est un ensemble de données approprié pour déterminer la note moyenne à un examen.
Dans l’exemple précédent, nous avons vu une situation où il n’était pas trop difficile de collecter des données auprès de la population. Souvent, dans ces circonstances, la méthode à privilégier est de collecter des données auprès de la population. Mais cette méthode devient assez coûteuse et prend du temps si la population est grande, par exemple, la population d’un pays. Même dans ces cas, le gouvernement national dispose de ressources suffisantes pour mener périodiquement des enquêtes nationales, appelées recensements. Ceci est fait car il est très important, lors des décisions politiques, d’obtenir des données précises. Pour des chercheurs et des organisations privées, une telle tâche est trop coûteuse et peu pratique. Dans de tels cas, nous avons généralement recours à la méthode par échantillons.
Considérons un exemple où la méthode ayant recours à la population est trop coûteuse et prend du temps.
Exemple 2: Distinguer population et échantillon
Lequel des ensembles de données suivants est le plus adapté pour vérifier le niveau d’éducation dans les villages pauvres d’Afrique ?
- Des échantillons
- Population
Réponse
Rappelons qu’une population est le groupe complet des personnes ou des objets qui sont la cible d’une étude statistique et qu’un échantillon est un groupe d’individus plus petit que la population. La collecte de données auprès de la population est plus précise, mais est plus chère que la collecte de données à partir d’un échantillon.
Dans cet exemple, la population est le l’ensemble des personnes habitant dans les villages pauvres en Afrique. La collecte de données auprès de chaque individu de la population serait une tâche décourageante, car la taille de cette population est très grande. Dans ce cas, il serait préférable de collecter des données à partir d’échantillons.
Ainsi, l’option A, la collecte par échantillons, est un ensemble de données approprié pour vérifier le niveau d’éducation dans les villages pauvres en Afrique.
Lorsque nous collectons des données auprès de l’ensemble de la population, nous pouvons obtenir des informations précises pour une variable d’étude. Nous pouvons ensuite obtenir des statistiques résumant les données, telles que la moyenne, pour les besoins de notre étude. Ces statistiques seraient les valeurs réelles obtenues pour la variable sur l’ensemble de la population. Si nous collectons des données à partir d’un échantillon, alors ces statistiques obtenues à partir de l’ensemble de données de l’échantillon ne sont pas la vraie valeur ou la vraie caractéristique de l’ensemble de la population. Selon la façon dont l’échantillon a été sélectionné, cela pourrait être une bonne approximation de la valeur réelle pour la population. Définissons ici le vocabulaire important.
Définition : Caractéristique de la population et statistique issue d’un échantillon
Une caractéristique de la population est une statistique calculée sur l’ensemble de la population.
Une statistique issue d’un échantillon est une statistique calculée sur un échantillon de la population.
Prenons un exemple où nous déterminons si une valeur donnée est une caractéristique de la population ou une statistique issue d’un échantillon.
Exemple 3: Collecter des données à partir d’un échantillon ou collecter des données sur l’ensemble d’une population
Lise connaît très bien toutes les familles vivant dans son quartier. Elle dit avoir découvert que le nombre moyen d’enfants par famille est de 2,3. Est-ce une statistique issue d’un échantillon ou une caractéristique de la population ?
Réponse
Rappelons qu’une caractéristique de la population est une statistique calculée sur l’ensemble de la population et qu’une statistique issue d’un échantillon est calculée à partir d’un échantillon.
Dans cet exemple, la population est le groupe de familles vivant dans le quartier de Lise. Comme Lise connaît très bien toutes les familles de sa région, elle connaît probablement le nombre d’enfants dans chaque famille. Par conséquent, nous pouvons supposer que le nombre moyen d’enfants a été calculé en utilisant les données de chaque famille du quartier. En d’autres termes, la valeur 2,3 est une statistique calculée sur l’ensemble de la population.
Le paramètre 2,3 est donc une caractéristique de la population.
Considérons un autre exemple où nous distinguons la caractéristique de la population d’une statistique issue d’un échantillon.
Exemple 4: Collecter des données à partir d’un échantillon ou collecter des données sur l’ensemble d’une population
Une étude prétend que des personnes âgées de 16 à 24 ans dans un certain pays possèdent un smartphone. S’agit-il d’une statistique issue d’un échantillon ou d’une caractéristique de la population ?
Réponse
Rappelons qu’une caractéristique de la population est statistique calculée sur l’ensemble de la population et qu’une statistique issue d’un échantillon est calculée à partir d’un échantillon.
Dans cet exemple, la population est le groupe de personnes âgées de 16 à 24 ans dans un certain pays. Nous devons savoir si le nombre provient d’un échantillon ou de l’ensemble de la population. Si ce nombre vient de l’ensemble de la population, cela signifie que les chercheurs ont interrogé chaque personne entre 16 et 24 ans dans le pays, ce qui semble considérable. C’est un scénario peu probable. De plus, si tel était le cas, serait la vraie valeur pour l’ensemble de la population. Mais nous voyons que l’affirmation donnée commence par « une étude prétend », ce qui signifie qu’il s’agit d’une conjecture. Vu la grande taille de la population d’un pays et le choix du vocabulaire utilisé (prétend), nous pouvons supposer que cette valeur a été obtenue en utilisant des échantillons.
Ainsi, la valeur est une statistique issue d’un échantillon.
Dans les exemples précédents, nous avons déterminé si un nombre donné était une caractéristique de la population ou une statistique issue d’un échantillon. Nous avons observé que lorsque la population d’une étude statistique est grande, dans la plupart des cas, on calcule d’abord une statistique issue d’un échantillon. Une exception notable à cette règle est le recensement du gouvernement car le gouvernement national dispose de ressources suffisantes pour mener une enquête complète sur l’ensemble de la population.
Une statistique issue d’un échantillon à elle seule n’est pas valable, car il s’agit simplement d’une description d’un petit groupe d’individus. Mais si l’échantillon est sélectionné de manière aléatoire, alors une statistique résumant les données de l’échantillon peut être une bonne estimation de la caractéristique correspondante de l’ensemble de la population.
Définition : Inférence statistique
Une inférence en statistique est la méthode ou le processus d’estimation d’une caractéristique de la population basée sur l’utilisation des statistiques issues d’échantillons.
Alors qu’une estimation semble directe, la conclusion statistique doit inclure des informations sur la marge d’erreur et le niveau de confiance pour chaque estimation. Revenons à notre exemple de collecte de données sur le revenu par habitant dans une ville. Disons que nous avons collecté les données sur le revenu de 100 personnes sélectionnées de manière aléatoire dans la ville et que le revenu moyen de cet ensemble de données est de 50 000 $. Dans ce cas, une inférence serait la méthode ou le processus qui conclut, sur la base de notre échantillon aléatoire, que le revenu moyen de tous les habitants de la ville serait d’environ 50 000 $ avec une marge d’erreur et un niveau de confiance donnés.
L’inférence nécessite la connaissance de diverses méthodes et théories statistiques, ce qui n’est pas au programme de cette fiche explicative. Le but de cette fiche explicative est de nous faire comprendre qu’une statistique issue d’un échantillon peut être utilisée pour estimer une caractéristique de la population par un processus appelé inférence.
Finissons en considérant un exemple qui traite une inférence statistique.
Exemple 5: Identifier des procédés représentatifs d’une inférence statistique
Laquelle de ces expressions décrit une inférence en statistique ?
- Déterminer le pourcentage d’une population qui présente une certaine caractéristique
- Appliquer des conclusions tirées d’un échantillon sur l’ensemble de la population
- Calculer une statistique à partir d’un échantillon
- Générer un échantillon aléatoire à partir d’une population donnée
Réponse
Rappelons qu’une inférence en statistique est la méthode ou le processus d’estimation d’une caractéristique de la population en utilisant des statistiques issues d’échantillons. Nous rappelons également qu’une caractéristique de la population est une statistique calculée sur l’ensemble de la population et qu’une statistique issue d’un échantillon est calculée à partir d’un échantillon. En d’autres termes, une inférence est la méthode utilisée pour appliquer des conclusions tirées à l’aide d’un échantillon d’une population pour estimer une caractéristique de la population. Ainsi, l’option B décrit une inférence en statistique.
Examinons les options restantes. Les options C et D décrivent des méthodes statistiques permettant le calcul d’une statistique issue d’un échantillon. Ces travaux ont lieu avant l’inférence ; par conséquent, nous pouvons exclure ces options. L’option A décrit un travail statistique qui concerne directement la population. Cela ne correspond pas non plus à la définition d’une inférence, qui doit impliquer un échantillon.
L’option B décrit une inférence en statistique.
Terminons par résumer quelques points importants de cette leçon.
Points Clés
- Une population est le groupe complet des personnes ou des objets qui sont la cible d’une étude statistique et un échantillon est un groupe d’individus plus petit que la population. La méthode de la population signifie que nous collectons des données à partir de la population entière, tandis que la méthode par échantillons signifie que nous collectons des données à partir d’échantillons choisis au hasard.
- Alors que la méthode de la population fournit les informations les plus précises, elle est souvent trop coûteuse et prend beaucoup de temps lorsque la population est grande. Dans de tels cas, la méthode par échantillons est préférée pour économiser du temps et de l’argent.
- Une caractéristique de la population est une statistique calculée sur l’ensemble de la population et une statistique issue d’un échantillon est calculée à partir d’un échantillon.
- Une inférence en statistique est la méthode ou le processus d’estimation d’une caractéristique de la population en utilisant des statistiques issues d’échantillons.
- Dans la plupart des études statistiques où la taille de la population est importante, les chercheurs recueillent des données à partir d’un échantillon aléatoire, à partir duquel ils obtiennent diverses statistiques issues d’échantillons. En utilisant ces statistiques issues d’échantillons, les chercheurs appliquent une inférence statistique pour estimer une caractéristique de la population.