Fiche explicative de la leçon: Coefficient de corrélation de Pearson | Nagwa Fiche explicative de la leçon: Coefficient de corrélation de Pearson | Nagwa

Fiche explicative de la leçon: Coefficient de corrélation de Pearson Mathématiques • Troisième année secondaire

Dans cette fiche explicative, nous apprendrons comment calculer et utiliser le coefficient de corrélation de Pearson, noté 𝑟, pour décrire l’intensité et le sens d’une relation linéaire.

Vous vous rappelez peut-être avoir appris ce qu’est la corrélation entre deux ensembles de données, lorsque ceux-ci ont une relation statistique. Pour la corrélation linéaire, nous pouvons déterminer dans quelle mesure deux ensembles de données sont corrélés l’un à l’autre en fonction de leur degré de concordance avec une droite, comme on le voit ci-dessous.

Forte corrélation:tous les points sont proches de la ligne de meilleur ajustement.

Corrélation faible:tous les points suivent la ligne de meilleur ajustement, mais certains sont plus éloignés que d’autres.

Aucune corrélation:il n’y a pas de droite nette de meilleur ajustement et les points sont dispersés.

Cependant, cette approche ne permet pas de déterminer avec précision l’intensité exacte de la corrélation;par conséquent, une autre méthode pour déterminer l’intensité de la corrélation est nécessaire.

Pour la corrélation linéaire, nous pouvons utiliser le coefficient de corrélation de Pearson (également connu sous le nom de coefficient de corrélation produit-moment de Pearson) pour déterminer l’intensité de la corrélation linéaire entre deux ensembles de données. Le coefficient, appelé 𝑟, prend ses valeurs dans l’intervalle [1;1] et peut nous dire à quel point deux variables sont corrélées en fonction de la valeur que 𝑟 prend.

Comment : Déterminer l’intensité de la corrélation linéaire en utilisant le coefficient de corrélation de Pearson

Afin de déterminer l’intensité de la corrélation linéaire entre deux ensembles de données, nous pouvons utiliser le coefficient de corrélation de Pearson, noté 𝑟. Plus précisément,

  • si deux variables ont une forte corrélation positive (directe), alors 𝑟 est proche de 1;
  • si deux variables ont une faible corrélation positive (directe), alors 𝑟 est positif, mais plus proche de 0 que de 1;
  • si deux variables ont une forte corrélation négative (inverse), alors 𝑟 est proche de 1;
  • si deux variables ont une faible corrélation négative (inverse), alors 𝑟 est négatif, mais plus proche de 0 que de 1;
  • s’il n’y a pas de corrélation, alors 𝑟 est proche de 0.

Cela peut également être vu sur la droite numérique ci-dessous.

Nous pouvons comparer le coefficient de corrélation avec les nuages de points des ensembles de données pour nous aider à visualiser les différentes corrélations, comme le montrent les figures ci-dessous.

Dans l’exemple suivant, nous montrerons comment utiliser la définition du coefficient de corrélation de Pearson pour déterminer l’intensité et le sens d’une corrélation.

Exemple 1: Déterminer le type de corrélation entre deux variables en utilisant la valeur du coefficient de corrélation

Laquelle des interprétations suivantes est la plus appropriée pour un coefficient de corrélation produit-moment de 0,8?

  1. Une forte corrélation linéaire positive
  2. Aucune corrélation
  3. Une corrélation linéaire positive modérée
  4. Une forte corrélation linéaire négative
  5. Une corrélation linéaire négative modérée

Réponse

Comme le coefficient de corrélation produit-moment nous indique l’intensité d’une association linéaire entre deux variables, nous pouvons utiliser la droite numérique ci-dessous pour nous aider à déterminer l’interprétation d’un coefficient de 0,8.

Sachant que 0,8 est un nombre positif, nous savons que les ensembles de données sont corrélés positivement. Comme 0,8 est relativement proche de 1, nous savons que les jeux de données sont fortement corrélés. Par conséquent, il existe une forte corrélation linéaire positive.

Nous pouvons également utiliser la définition du coefficient de corrélation de Pearson pour faire correspondre la description de la corrélation de deux ensembles de données avec le coefficient de corrélation le plus approprié.

Exemple 2: Déterminer le coefficient de corrélation le plus approprié à partir d’une description de la corrélation

Lequel des coefficients de corrélation suivants indique la corrélation inverse la plus faible?

  1. 0,48
  2. 0,22
  3. 0,75
  4. 0,83

Réponse

Nous savons qu’une corrélation inverse a un coefficient de corrélation produit-moment négatif, ce qui est le cas pour toutes les options de l’exemple. Nous savons aussi que plus la corrélation est faible, plus la valeur est proche de zéro. Utiliser une droite numérique peut nous aider à déterminer quelle valeur est la plus appropriée.

Par conséquent, puisque 0,22 est le plus proche de zéro, cette valeur indique la corrélation inverse la plus faible.

Dans l’exemple suivant, nous utiliserons la définition du coefficient de corrélation de Pearson pour faire correspondre le coefficient de corrélation le plus approprié à un nuage de points d’un ensemble de données.

Exemple 3: Déterminer le coefficient de corrélation le plus approprié à partir d’un nuage de points

Quelle est la valeur la plus probable du coefficient de corrélation produit-moment pour les données représentées sur le graphique?

  1. 0,58
  2. 0
  3. 0,94
  4. 0,78
  5. 0,37

Réponse

Le coefficient de corrélation produit-moment nous indique dans quelle mesure un ensemble de points correspond à une droite de meilleur ajustement. Par conséquent, en ajoutant la droite de meilleur ajustement, nous pouvons déterminer plus facilement l’intensité et le sens de la corrélation.

Une estimation de la droite de meilleur ajustement a été appliquée aux données. Comme la droite de meilleur ajustement a une pente négative, nous savons que nous étudions une corrélation inverse, de sorte que le coefficient de corrélation est compris entre 1 et 0. Puisque la majorité des points de données se situent sur, ou sont proches de, la ligne de meilleur ajustement, il doit y avoir une forte corrélation négative. On pourrait, par exemple, estimer que l’intervalle sur lequel se situe le coefficient de corrélation est [1;0,8]. L’option 0,58 représenterait une corrélation négative modérée, par conséquent, notre réponse est 0,94.

Nous avons vu que nous pouvons estimer et interpréter la valeur du coefficient de corrélation de Pearson et sa relation avec une droite de meilleur ajustement. A présent, nous allons déterminer comment le coefficient de corrélation de Pearson est calculé.

Définition : Coefficient de corrélation de Pearson

Le coefficient de corrélation 𝑟 détermine l’intensité de la corrélation entre deux variables 𝑥 et 𝑦 et est calculé en utilisant la formule𝑟=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑛𝑦𝑦,𝑛 est le nombre de valeurs appariées de 𝑥 et 𝑦.

Le coefficient de corrélation de Pearson est utilisé pour les données bivariées continues afin de déterminer l’intensité et le sens de la corrélation linéaire entre les deux ensembles de données.

Si vous vous renseignez plus largement sur le sujet du coefficient de corrélation de Pearson, vous rencontrerez une autre forme de la formule, qui est𝑟=𝑆𝑆𝑆,𝑆, 𝑆 et 𝑆 sont définis comme𝑆=𝑥𝑥𝑛,𝑆=𝑦𝑦𝑛,𝑆=𝑥𝑦𝑥𝑦𝑛.

Dans l’exemple suivant, nous calculerons le coefficient de corrélation produit-moment lorsque des statistiques sommaires, telles que les valeurs de la somme de chacun des éléments suivants:𝑥, 𝑦, 𝑥𝑦, 𝑥 et 𝑦, ainsi que la valeur de 𝑛 sont données.

Exemple 4: Calcul du coefficient de corrélation produit-moment d’après des statistiques sommaires

Un ensemble de données peut être résumé comme suit:𝑛=8,𝑥=78,𝑦=73,𝑥𝑦=752,𝑥=792,𝑦=735.et

Calculez le coefficient de corrélation produit-moment pour cet ensemble de données, en donnant votre réponse au millième près.

Réponse

Approche 1:

Afin de calculer le coefficient de corrélation produit-moment, nous utilisons la formule𝑟=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑛𝑦𝑦,𝑛 est le nombre de valeurs appariées de 𝑥 et 𝑦.

En remplaçant 𝑛=8, 𝑥=78, 𝑦=73, 𝑥𝑦=752, 𝑥=792, et 𝑦=735 on obtient𝑟=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑛𝑦𝑦=8×(752)78×(73)8×792(78)8×735(73)=322252551=0,8643.àdécimalesprès

Puisque la valeur de 𝑟 se situe dans l’intervalle [1;1], la réponse 0,864 est appropriée:𝑟=0,864.

Approche 2:

Premièrement, nous devons calculer les statistiques sommaires 𝑆, 𝑆 et 𝑆:𝑆=𝑥𝑥𝑛=792(78)8=31,5,𝑆=𝑦𝑦𝑛=735(73)8=68,875,𝑆=𝑥𝑦𝑥𝑦𝑛=752(78)(73)8=40,25.

Il est utile, lors du calcul de 𝑆 et 𝑆, de vérifier que ces valeurs sont positives, car ces deux statistiques sommaires ne doivent pas être négatives. 𝑆, cependant, peut être négative et déterminera si les ensembles de données sont corrélés positivement ou négativement.

Ensuite, nous pouvons calculer le coefficient de corrélation en utilisant la formule𝑟=𝑆𝑆𝑆=40,2531,5×68,875=0,864.à3décimalesprès

Puisque la valeur de 𝑟 se situe dans l’intervalle [1;1], la réponse 0,864 est appropriée:𝑟=0,864.

Dans l’exemple suivant, nous calculons le coefficient de corrélation à partir d’un ensemble de données bivariées continues et l’utilisons pour déterminer l’intensité et le sens de la corrélation.

Exemple 5: Calculer le coefficient de corrélation de Pearson à partir d’un ensemble de données à deux variables continues et utiliser celui-ci pour déterminer l’intensité et le sens de la corrélation

Le tableau de données montre les résultats du saut en hauteur et du saut en longueur obtenus par 15 concurrentes dans l’heptathlon féminin aux Jeux Olympiques de Rio en 2016.

Saut en longueur (m)5,515,725,815,885,916,056,086,106,166,196,316,316,346,486,58
Saut en hauteur (m)1,651,771,831,771,771,771,81,771,81,861,861,831,891,861,98
  1. Calculez, au millième près, la valeur du coefficient de corrélation produit-moment entre les résultats du saut en longueur et du saut en hauteur.
  2. Que révèle ce coefficient de corrélation sur la relation entre les résultats du saut en longueur et du saut en hauteur?
    1. Il y a une corrélation linéaire négative modérée entre les résultats du saut en longueur et du saut en hauteur.
    2. Il y a une forte corrélation linéaire positive entre les résultats du saut en longueur et du saut en hauteur.
    3. Il y a une corrélation linéaire positive modérée entre les résultats du saut en longueur et du saut en hauteur.
    4. Il y a une forte corrélation linéaire négative entre les résultats du saut en longueur et du saut en hauteur.
    5. Il n’y a pas de corrélation réelle entre les résultats du saut en longueur et du saut en hauteur.

Réponse

Partie 1

Afin de calculer le coefficient de corrélation produit-moment, nous calculons 𝑥, 𝑦, 𝑥, 𝑦, 𝑥𝑦 et 𝑛 puis nous utilisons la formule:𝑟=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑛𝑦𝑦,𝑛 est le nombre de valeurs appariées de 𝑥 et 𝑦.

Il est utile d’ajouter des lignes / colonnes supplémentaires pour calculer 𝑥, 𝑦 et 𝑥𝑦 pour calculer la somme de chacun d’eux.

Saut en longueur, 𝑥Saut en hauteur, 𝑦𝑥𝑦𝑥𝑦
5,511,6530,3‎ ‎6012,7‎ ‎2259,0‎ ‎915
5,721,7732,7‎ ‎1843,1‎ ‎32910,1‎ ‎224
5,811,8333,7‎ ‎5613,3‎ ‎489‏10,6323‏
5,881,7734,5‎ ‎7443,1‎ ‎32910,4‎ ‎076
5,911,7734,9‎ ‎2813,1‎ ‎329‏10,4607‏
6,051,7736,6‎ ‎0253,1‎ ‎32910,7‎ ‎085
6,081,836,9‎ ‎6643,24‏10,944‏
6,11,77‏37,21‏3,1‎ ‎329‏10,797‏
6,161,837,9‎ ‎4563,24‏11,088‏
6,191,8638,3‎ ‎1613,4‎ ‎59611,5‎ ‎134
6,311,8639,8‎ ‎1613,4‎ ‎59611,7‎ ‎366
6,311,8339,8‎ ‎1613,3‎ ‎48911,5‎ ‎473
6,341,8940,1‎ ‎9563,5‎ ‎72111,9‎ ‎826
6,481,8641,9‎ ‎9043,4‎ ‎596‏12,0528‏
6,581,9843,2‎ ‎9643,9‎ ‎20413,0‎ ‎284
𝑥=91,43𝑦=27,21𝑥=558,4923𝑦=49,4361𝑥𝑦=166,1151

En utilisant 𝑛=15, le nombre de points de données et la somme de 𝑥, 𝑦, 𝑥, 𝑦 et 𝑥𝑦 à partir du tableau ci-dessus, nous pouvons maintenant utiliser la formule pour calculer 𝑟:𝑟=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑛𝑦𝑦𝑟=15×166,115191,43×27,2115×558,4923(91,43)15×49,4361(27,21)=3,916217,93961,1574=0,859.aumillièmeprès

Puisque la valeur de 𝑟 se situe dans l’intervalle [1;1], la réponse de 0,859 est appropriée:𝑟=0,859.

Partie 2

Après avoir calculé la valeur de 𝑟, nous pouvons ensuite l’utiliser pour déterminer l’intensité et le sens de la corrélation. Comme 𝑟 est positif, les ensembles de données sont corrélés positivement. Comme 𝑟 est relativement proche de 1, les ensembles de données sont fortement corrélés. Par conséquent, il existe une forte corrélation linéaire positive entre les résultats du saut en longueur et du saut en hauteur. C’est la réponse B.

Dans notre dernier exemple, nous allons calculer le coefficient de corrélation en utilisant l’autre forme de la formule pour le coefficient de corrélation de Pearson discuté, car 𝑆, 𝑆 et 𝑆 sont donnés.

Exemple 6: Calcul du coefficient de corrélation de Pearson avec 𝑆𝑥𝑥, 𝑆𝑦𝑦 et 𝑆𝑥𝑦 donnés

Un ensemble de données donne des statistiques sommaires de 𝑆=36,875, 𝑆=73,875 et 𝑆=32,375. Calculez le coefficient de corrélation produit-moment pour cet ensemble de données, en donnant votre réponse au millième près.

Réponse

La formule du coefficient de corrélation de Pearson indique que 𝑟=𝑆𝑆𝑆.

Par conséquent, en remplaçant 𝑆=36,875, 𝑆=73,875 et 𝑆=32,375, cela donne𝑟=32,37536,875×73,875𝑟=0,620.à3décimalesprès

Comme nous savons que 𝑟 se situe dans l’intervalle [1;1], on peut en déduire que 0,620 est une valeur appropriée:𝑟=0,620.

Dans cette fiche explicative, nous avons appris à calculer le coefficient de corrélation de Pearson et à interpréter sa signification. Récapitulons les points clés.

Points clés

  • Le coefficient de corrélation de Pearson, 𝑟, nous indique à quel point deux variables continues sont corrélées linéairement:
    • Si 𝑟 se situe dans l’intervalle ]0,5;1], alors elles sont étroitement et directement corrélées.
    • Si 𝑟 se situe dans l’intervalle ]0,1;0,5], alors elles sont faiblement et directement corrélées.
    • Si 𝑟 se situe dans l’intervalle [1;0,5[, alors elles sont étroitement et inversement corrélées.
    • Si 𝑟 se situe dans l’intervalle [0,5;0,1[, alors elles sont faiblement et inversement corrélées.
    • Si 𝑟 se situe dans l’intervalle [0,1;0,1], alors il n’y a pas de corrélation.
  • Le coefficient de corrélation de Pearson est calculé en utilisant la formule𝑟=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑛𝑦𝑦,𝑥 représente les valeurs d’une variable, 𝑦 représente les valeurs de l’autre variable et 𝑛 représente le nombre de points de données.
  • On peut aussi utiliser la forme alternative du coefficient de corrélation de Pearson, en utilisant la formule𝑟=𝑆𝑆𝑆,𝑆, 𝑆 et 𝑆 sont les statistiques sommaires définies comme𝑆=𝑥𝑥𝑛,𝑆=𝑦𝑦𝑛,𝑆=𝑥𝑦𝑥𝑦𝑛;et𝑥 représente les valeurs d’une variable, 𝑦 représente les valeurs de l’autre variable et 𝑛 représente le nombre de points de données.
  • Nous pouvons utiliser le coefficient de corrélation de Pearson pour les données bivariées continues quand un ensemble de données ou des statistiques sommaires sont données.

Rejoindre Nagwa Classes

Assistez à des séances en direct sur Nagwa Classes pour stimuler votre apprentissage avec l’aide et les conseils d’un enseignant expert !

  • Séances interactives
  • Chat et messagerie électronique
  • Questions d’examen réalistes

Nagwa utilise des cookies pour vous garantir la meilleure expérience sur notre site web. Apprenez-en plus à propos de notre Politique de confidentialité