Dans cette fiche explicative, nous apprendrons comment calculer et utiliser le coefficient de corrélation de Pearson, noté , pour décrire l’intensité et le sens d’une relation linéaire.
Vous vous rappelez peut-être avoir appris ce qu’est la corrélation entre deux ensembles de données, lorsque ceux-ci ont une relation statistique. Pour la corrélation linéaire, nous pouvons déterminer dans quelle mesure deux ensembles de données sont corrélés l’un à l’autre en fonction de leur degré de concordance avec une droite, comme on le voit ci-dessous.
Forte corrélation : tous les points sont proches de la ligne de meilleur ajustement.
Corrélation faible : tous les points suivent la ligne de meilleur ajustement, mais certains sont plus éloignés que d’autres.
Aucune corrélation : il n’y a pas de droite nette de meilleur ajustement et les points sont dispersés.
Cependant, cette approche ne permet pas de déterminer avec précision l’intensité exacte de la corrélation ; par conséquent, une autre méthode pour déterminer l’intensité de la corrélation est nécessaire.
Pour la corrélation linéaire, nous pouvons utiliser le coefficient de corrélation de Pearson (également connu sous le nom de coefficient de corrélation produit-moment de Pearson) pour déterminer l’intensité de la corrélation linéaire entre deux ensembles de données. Le coefficient, appelé , prend ses valeurs dans l’intervalle et peut nous dire à quel point deux variables sont corrélées en fonction de la valeur que prend.
Comment : Déterminer l’intensité de la corrélation linéaire en utilisant le coefficient de corrélation de Pearson
Afin de déterminer l’intensité de la corrélation linéaire entre deux ensembles de données, nous pouvons utiliser le coefficient de corrélation de Pearson, noté . Plus précisément,
- si deux variables ont une forte corrélation positive (directe), alors est proche de 1 ;
- si deux variables ont une faible corrélation positive (directe), alors est positif, mais plus proche de 0 que de 1 ;
- si deux variables ont une forte corrélation négative (inverse), alors est proche de ;
- si deux variables ont une faible corrélation négative (inverse), alors est négatif, mais plus proche de 0 que de ;
- s’il n’y a pas de corrélation, alors est proche de 0.
Cela peut également être vu sur la droite numérique ci-dessous.
Nous pouvons comparer le coefficient de corrélation avec les nuages de points des ensembles de données pour nous aider à visualiser les différentes corrélations, comme le montrent les figures ci-dessous.
Dans l’exemple suivant, nous montrerons comment utiliser la définition du coefficient de corrélation de Pearson pour déterminer l’intensité et le sens d’une corrélation.
Exemple 1: Déterminer le type de corrélation entre deux variables en utilisant la valeur du coefficient de corrélation
Laquelle des interprétations suivantes est la plus appropriée pour un coefficient de corrélation produit-moment de 0,8 ?
- Une forte corrélation linéaire positive
- Aucune corrélation
- Une corrélation linéaire positive modérée
- Une forte corrélation linéaire négative
- Une corrélation linéaire négative modérée
Réponse
Comme le coefficient de corrélation produit-moment nous indique l’intensité d’une association linéaire entre deux variables, nous pouvons utiliser la droite numérique ci-dessous pour nous aider à déterminer l’interprétation d’un coefficient de 0,8.
Sachant que 0,8 est un nombre positif, nous savons que les ensembles de données sont corrélés positivement. Comme 0,8 est relativement proche de 1, nous savons que les jeux de données sont fortement corrélés. Par conséquent, il existe une forte corrélation linéaire positive.
Nous pouvons également utiliser la définition du coefficient de corrélation de Pearson pour faire correspondre la description de la corrélation de deux ensembles de données avec le coefficient de corrélation le plus approprié.
Exemple 2: Déterminer le coefficient de corrélation le plus approprié à partir d’une description de la corrélation
Lequel des coefficients de corrélation suivants indique la corrélation inverse la plus faible ?
Réponse
Nous savons qu’une corrélation inverse a un coefficient de corrélation produit-moment négatif, ce qui est le cas pour toutes les options de l’exemple. Nous savons aussi que plus la corrélation est faible, plus la valeur est proche de zéro. Utiliser une droite numérique peut nous aider à déterminer quelle valeur est la plus appropriée.
Par conséquent, puisque est le plus proche de zéro, cette valeur indique la corrélation inverse la plus faible.
Dans l’exemple suivant, nous utiliserons la définition du coefficient de corrélation de Pearson pour faire correspondre le coefficient de corrélation le plus approprié à un nuage de points d’un ensemble de données.
Exemple 3: Déterminer le coefficient de corrélation le plus approprié à partir d’un nuage de points
Quelle est la valeur la plus probable du coefficient de corrélation produit-moment pour les données représentées sur le graphique ?
- 0
- 0,78
- 0,37
Réponse
Le coefficient de corrélation produit-moment nous indique dans quelle mesure un ensemble de points correspond à une droite de meilleur ajustement. Par conséquent, en ajoutant la droite de meilleur ajustement, nous pouvons déterminer plus facilement l’intensité et le sens de la corrélation.
Une estimation de la droite de meilleur ajustement a été appliquée aux données. Comme la droite de meilleur ajustement a une pente négative, nous savons que nous étudions une corrélation inverse, de sorte que le coefficient de corrélation est compris entre et 0. Puisque la majorité des points de données se situent sur, ou sont proches de, la ligne de meilleur ajustement, il doit y avoir une forte corrélation négative. On pourrait, par exemple, estimer que l’intervalle sur lequel se situe le coefficient de corrélation est . L’option représenterait une corrélation négative modérée, par conséquent, notre réponse est .
Nous avons vu que nous pouvons estimer et interpréter la valeur du coefficient de corrélation de Pearson et sa relation avec une droite de meilleur ajustement. A présent, nous allons déterminer comment le coefficient de corrélation de Pearson est calculé.
Définition : Coefficient de corrélation de Pearson
Le coefficient de corrélation détermine l’intensité de la corrélation entre deux variables et et est calculé en utilisant la formule où est le nombre de valeurs appariées de et .
Le coefficient de corrélation de Pearson est utilisé pour les données bivariées continues afin de déterminer l’intensité et le sens de la corrélation linéaire entre les deux ensembles de données.
Si vous vous renseignez plus largement sur le sujet du coefficient de corrélation de Pearson, vous rencontrerez une autre forme de la formule, qui est où , et sont définis comme
Dans l’exemple suivant, nous calculerons le coefficient de corrélation produit-moment lorsque des statistiques sommaires, telles que les valeurs de la somme de chacun des éléments suivants : , , , et , ainsi que la valeur de sont données.
Exemple 4: Calcul du coefficient de corrélation produit-moment d’après des statistiques sommaires
Un ensemble de données peut être résumé comme suit :
Calculez le coefficient de corrélation produit-moment pour cet ensemble de données, en donnant votre réponse au millième près.
Réponse
Approche 1 :
Afin de calculer le coefficient de corrélation produit-moment, nous utilisons la formule où est le nombre de valeurs appariées de et .
En remplaçant , , , , , et on obtient
Puisque la valeur de se situe dans l’intervalle , la réponse est appropriée :
Approche 2 :
Premièrement, nous devons calculer les statistiques sommaires , et :
Il est utile, lors du calcul de et , de vérifier que ces valeurs sont positives, car ces deux statistiques sommaires ne doivent pas être négatives. , cependant, peut être négative et déterminera si les ensembles de données sont corrélés positivement ou négativement.
Ensuite, nous pouvons calculer le coefficient de corrélation en utilisant la formule
Puisque la valeur de se situe dans l’intervalle , la réponse est appropriée :
Dans l’exemple suivant, nous calculons le coefficient de corrélation à partir d’un ensemble de données bivariées continues et l’utilisons pour déterminer l’intensité et le sens de la corrélation.
Exemple 5: Calculer le coefficient de corrélation de Pearson à partir d’un ensemble de données à deux variables continues et utiliser celui-ci pour déterminer l’intensité et le sens de la corrélation
Le tableau de données montre les résultats du saut en hauteur et du saut en longueur obtenus par 15 concurrentes dans l’heptathlon féminin aux Jeux Olympiques de Rio en 2016.
Saut en longueur (m) | 5,51 | 5,72 | 5,81 | 5,88 | 5,91 | 6,05 | 6,08 | 6,10 | 6,16 | 6,19 | 6,31 | 6,31 | 6,34 | 6,48 | 6,58 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Saut en hauteur (m) | 1,65 | 1,77 | 1,83 | 1,77 | 1,77 | 1,77 | 1,8 | 1,77 | 1,8 | 1,86 | 1,86 | 1,83 | 1,89 | 1,86 | 1,98 |
- Calculez, au millième près, la valeur du coefficient de corrélation produit-moment entre les résultats du saut en longueur et du saut en hauteur.
- Que révèle ce coefficient de corrélation sur la relation entre les résultats du saut en longueur et du saut en hauteur ?
- Il y a une corrélation linéaire négative modérée entre les résultats du saut en longueur et du saut en hauteur.
- Il y a une forte corrélation linéaire positive entre les résultats du saut en longueur et du saut en hauteur.
- Il y a une corrélation linéaire positive modérée entre les résultats du saut en longueur et du saut en hauteur.
- Il y a une forte corrélation linéaire négative entre les résultats du saut en longueur et du saut en hauteur.
- Il n’y a pas de corrélation réelle entre les résultats du saut en longueur et du saut en hauteur.
Réponse
Partie 1
Afin de calculer le coefficient de corrélation produit-moment, nous calculons , , , , et puis nous utilisons la formule : où est le nombre de valeurs appariées de et .
Il est utile d’ajouter des lignes / colonnes supplémentaires pour calculer , et pour calculer la somme de chacun d’eux.
Saut en longueur, | Saut en hauteur, | |||
---|---|---|---|---|
5,51 | 1,65 | 30,3 601 | 2,7 225 | 9,0 915 |
5,72 | 1,77 | 32,7 184 | 3,1 329 | 10,1 224 |
5,81 | 1,83 | 33,7 561 | 3,3 489 | 10,6323 |
5,88 | 1,77 | 34,5 744 | 3,1 329 | 10,4 076 |
5,91 | 1,77 | 34,9 281 | 3,1 329 | 10,4607 |
6,05 | 1,77 | 36,6 025 | 3,1 329 | 10,7 085 |
6,08 | 1,8 | 36,9 664 | 3,24 | 10,944 |
6,1 | 1,77 | 37,21 | 3,1 329 | 10,797 |
6,16 | 1,8 | 37,9 456 | 3,24 | 11,088 |
6,19 | 1,86 | 38,3 161 | 3,4 596 | 11,5 134 |
6,31 | 1,86 | 39,8 161 | 3,4 596 | 11,7 366 |
6,31 | 1,83 | 39,8 161 | 3,3 489 | 11,5 473 |
6,34 | 1,89 | 40,1 956 | 3,5 721 | 11,9 826 |
6,48 | 1,86 | 41,9 904 | 3,4 596 | 12,0528 |
6,58 | 1,98 | 43,2 964 | 3,9 204 | 13,0 284 |
En utilisant , le nombre de points de données et la somme de , , , et à partir du tableau ci-dessus, nous pouvons maintenant utiliser la formule pour calculer :
Puisque la valeur de se situe dans l’intervalle , la réponse de 0,859 est appropriée :
Partie 2
Après avoir calculé la valeur de , nous pouvons ensuite l’utiliser pour déterminer l’intensité et le sens de la corrélation. Comme est positif, les ensembles de données sont corrélés positivement. Comme est relativement proche de 1, les ensembles de données sont fortement corrélés. Par conséquent, il existe une forte corrélation linéaire positive entre les résultats du saut en longueur et du saut en hauteur. C’est la réponse B.
Dans notre dernier exemple, nous allons calculer le coefficient de corrélation en utilisant l’autre forme de la formule pour le coefficient de corrélation de Pearson discuté, car , et sont donnés.
Exemple 6: Calcul du coefficient de corrélation de Pearson avec 𝑆𝑥𝑥, 𝑆𝑦𝑦 et 𝑆𝑥𝑦 donnés
Un ensemble de données donne des statistiques sommaires de , et . Calculez le coefficient de corrélation produit-moment pour cet ensemble de données, en donnant votre réponse au millième près.
Réponse
La formule du coefficient de corrélation de Pearson indique que .
Par conséquent, en remplaçant , et , cela donne
Comme nous savons que se situe dans l’intervalle , on peut en déduire que 0,620 est une valeur appropriée :
Dans cette fiche explicative, nous avons appris à calculer le coefficient de corrélation de Pearson et à interpréter sa signification. Récapitulons les points clés.
Points clés
- Le coefficient de corrélation de Pearson, , nous indique à quel point deux variables continues sont corrélées linéairement :
- Si se situe dans l’intervalle , alors elles sont étroitement et directement corrélées.
- Si se situe dans l’intervalle , alors elles sont faiblement et directement corrélées.
- Si se situe dans l’intervalle , alors elles sont étroitement et inversement corrélées.
- Si se situe dans l’intervalle , alors elles sont faiblement et inversement corrélées.
- Si se situe dans l’intervalle , alors il n’y a pas de corrélation.
- Le coefficient de corrélation de Pearson est calculé en utilisant la formule où représente les valeurs d’une variable, représente les valeurs de l’autre variable et représente le nombre de points de données.
- On peut aussi utiliser la forme alternative du coefficient de corrélation de Pearson, en utilisant la formule où , et sont les statistiques sommaires définies comme représente les valeurs d’une variable, représente les valeurs de l’autre variable et représente le nombre de points de données.
- Nous pouvons utiliser le coefficient de corrélation de Pearson pour les données bivariées continues quand un ensemble de données ou des statistiques sommaires sont données.