Le portail a été désactivé. Veuillez contacter l'administrateur de votre portail.

Vidéo de la leçon : Coefficient de corrélation de Pearson Mathématiques

Dans cette vidéo, nous allons apprendre comment calculer et utiliser le coefficient de corrélation de Pearson r pour décrire la force et la direction d’une relation linéaire.

21:23

Transcription de vidéo

Dans cette vidéo, nous allons apprendre comment calculer et utiliser le coefficient de corrélation de Pearson r pour décrire la force et la direction d’une relation linéaire. Nous commencerons par se remémorer quelques termes et notions liés à la corrélation, que nous allons illustrer avec quelques exemples. Puis, nous calculerons le coefficient de corrélation produit-moment de Pearson à la main en utilisant la formule correspondante.

Les données bivariées sont des données associant deux variables numériques ou quantitatives de manière unique dans une expérience. Supposons, par exemple, que nous ayons 𝑛 personnes dans un échantillon et que nous mesurions leurs tailles et leur poids. Pour chaque personne, nous avons un couple de mesures unique. Si nous désignons par 𝑋 la taille en mètres, et par 𝑌 le poids en kilogrammes, alors le couple de mesures pour chaque personne nous donne un point de notre série statistique à deux variables. Maintenant, supposons que nous aimerions savoir s’il existe une relation ou une corrélation entre la taille et le poids d’une personne. Pour nous donner une idée, nous commençons par représenter nos données en un nuage de points. Et si nous constatons que nos données suivent un modèle linéaire, alors nous pouvons dire qu’il existe une corrélation linéaire entre 𝑋 et 𝑌 ou, dans ce cas, entre la taille et le poids.

Il est important de se rappeler que lorsque nous examinons la corrélation, nous ne disons pas que la variation d’une variable entraîne la variation de l’autre. Nous décrivons simplement la relation entre les deux variables. Et un nuage de points peut nous donner des informations sur nos données. Nous pouvons voir à partir de ce nuage de points, par exemple, que quelqu’un de grande taille peut être relativement lourd. S’il y a une corrélation entre nos variables, le nuage de points peut nous indiquer la direction de notre corrélation. Si nos valeurs 𝑋 et Y augmentent ensemble, alors nous disons que nous avons une corrélation positive ou directe. Et si, à mesure que les valeurs de X augmentent, les valeurs de 𝑌 diminuent, alors nous disons que nous avons une corrélation négative ou inverse.

Si notre nuage de points indique qu’il n’en existe pas, alors nous n’avons aucune corrélation. Et si nous avons une relation non linéaire entre 𝑋 et 𝑌, alors bien sûr, il n’y a pas de corrélation linéaire. Nous pouvons aussi dans une certaine mesure dire, à partir d’un nuage de points, à quel point la corrélation linéaire est forte au vu de la proximité des points dans le modèle linéaire. Ainsi, par exemple, dans la figure de gauche, les points suivent étroitement un modèle linéaire, nous disons que la corrélation entre 𝑋 et 𝑌 est très forte, alors que les données de la figure de droite ne sont que vaguement réparties autour du modèle linéaire. Nous dirions donc que la corrélation linéaire directe y est faible.

Ainsi, à partir de nos nuages de points, nous avons une idée de la direction et de la force de la corrélation. Mais puisque nous sommes des mathématiciens, nous aimerions quelque chose d’un peu plus précis pour estimer les relations entre les données. Et c’est là que le coefficient de corrélation entre en jeu. Cette idée a été développée par un mathématicien anglais appelé Karl Pearson, d’où son nom: le coefficient de corrélation de Pearson ou le coefficient de corrélation produit-moment de Pearson. Il est noté 𝑟 indice 𝑥𝑦 ou simplement 𝑟. 𝑟 est compris entre moins un et un. Plus le coefficient est proche de un ou de moins un, la corrélation linéaire est forte. Voyons un premier exemple où nous devons estimer le coefficient de corrélation de Pearson à partir d’un nuage de points.

Quelle est la valeur la plus probable du coefficient de corrélation produit-moment pour les données représentées ci-dessous? Est-ce (A) moins 0,58, (B) zéro, (C) moins 0,94, (D) 0,78 ou (E) 0,37?

Pour estimer le coefficient de corrélation de Pearson à partir d’un nuage de points, il faut examiner deux choses. Premièrement la direction du modèle linéaire, qui dans notre exemple part du coin supérieur gauche vers le coin inférieur droit. Deuxièmement la dispersion des points de autour d’une éventuelle droite de meilleur ajustement. C’est-à-dire à quel point nos points sont proches de cette droite. Examinons d’abord la direction de la relation linéaire. En général, nous savons que si notre modèle linéaire s’étend du coin inférieur gauche au coin supérieur droit, alors nous avons une corrélation linéaire directe ou positive. Et si nos données s’étendent du coin supérieur gauche au coin inférieur droit, nous disons que nos données sont négativement ou inversement corrélées.

Le coefficient de corrélation produit-moment pour les données en corrélation directe ou positive prend des valeurs comprises entre zéro et un, alors que si les données sont inversement corrélées, le coefficient est compris entre moins un et zéro. Ici, nos données, s’étendent du coin supérieur gauche au coin inférieur droit. Nos données correspondent donc au deuxième cas, une corrélation négative ou inverse. Notre coefficient doit donc être compris entre moins un et zéro. Cela signifie que nous pouvons éliminer les options « D » et « E », car elles sont toutes les deux positives. Nous avons établi que notre corrélation est négative.

Maintenant regardons la dispersion des données autour de la droite de meilleur ajustement. Nous savons que plus l’éloignement par rapport à une droite de meilleur ajustement est grand, plus la corrélation est faible. Et plus les données sont proches de la droite de meilleur ajustement, plus la corrélation est forte. Le coefficient de corrélation produit-moment prend des valeurs entre moins un et plus un. Et plus le coefficient est proche de plus un ou de moins un, plus la corrélation est forte. En revanche, plus le coefficient de corrélation est proche de zéro, plus la corrélation est faible. Pour le nuage de points donné, la plupart des points sont très proches de la potentielle droite de meilleur ajustement. Et en se rappelant que notre coefficient est négatif, cela signifie que notre coefficient doit être proche de moins un. Nous pouvons donc certainement éliminer l’option (B) puisque nous savons qu’un coefficient de corrélation nul signifie qu’il n’y a pas de corrélation du tout.

Il nous reste donc les options (A) et (C). L’option (A), dont la valeur est moins 0,58, indiquerait une corrélation modérée. Car c’est à peu près au milieu entre zéro et moins un. Donc, puisque notre corrélation est très forte, nous pouvons éliminer l’option (A). L’option (C) est la plus proche de moins un, avec une valeur de moins 0,94. Le coefficient de corrélation produit-moment le plus probable pour les données représentées est donc l’option (C), moins 0,94.

Il est à noter également que si tous les points se situent exactement sur la droite, nous avons soit une corrélation linéaire directe ou positive parfaite, soit une corrélation inverse ou négative parfaite. Si nous avons une corrélation directe parfaite, le coefficient 𝑟 est égal à un. Et avec une corrélation inverse parfaite, le coefficient est égal à moins un. Voyons maintenant quelques exemples où nous interpréterons différentes valeurs du coefficient de corrélation de Pearson.

Lequel des coefficients de corrélation suivants indique la plus faible corrélation inverse? Est-ce l’option (A) moins 0,48, l’option (B) moins 0,22, l’option (C) moins 0,75 ou l’option (D) moins 0,83?

On nous donne quatre coefficients de corrélation, et nous devons déterminer lequel indique la corrélation inverse la plus faible. Nous savons que le coefficient de corrélation de Pearson prend des valeurs entre moins un et plus un. Et nous savons que si la valeur est comprise entre moins un et zéro, alors nous avons une corrélation inverse ou négative. Donc, toutes les options données représentent une corrélation inverse. Si le coefficient est compris entre zéro et un, alors notre corrélation est positive ou directe. Nous savons également que plus le coefficient est proche de un ou de moins un, plus la corrélation est forte ; et plus le coefficient est proche de zéro, plus la corrélation est faible. Et cela signifie que plus la valeur absolue du coefficient de corrélation est élevé, plus la corrélation est forte.

Maintenant, si nous regardons les grandeurs de nos quatre options, la valeur absolue de l’option (A) de 0,48. Celle de l’option (B) est 0,22. Celle de l’option (C) est de 0,75. Et celle de l’option (D) est de 0,83. Rappelez-vous, nous recherchons le coefficient de corrélation qui indique la corrélation la plus faible. Cela signifie que le coefficient de corrélation ayant la plus petite valeur absolue, c’est-à-dire dont la valeur absolue est la plus proche de zéro. Nous voyons que c’est l’option (B) qui a la valeur absolue la plus proche de zéro, ainsi (B) représente la corrélation la plus faible. Notre réponse est donc (B) moins 0,22.

Intéressons-nous maintenant à un autre exemple.

Laquelle des définitions suivantes est l’interprétation la plus appropriée d’un coefficient de corrélation produit-moment de 0,8? Est-ce (A) une forte corrélation linéaire négative, (B) une corrélation linéaire négative modérée, (C) une corrélation linéaire positive modérée, (D) une corrélation linéaire positive forte, ou (E) aucune corrélation?

Nous savons que le coefficient de corrélation produit-moment de Pearson 𝑟 indice 𝑥𝑦 ou simplement 𝑟 est compris entre moins un et un. Nous savons également que si 𝑟 est inférieur à zéro et supérieur à moins un, alors nous avons une corrélation inverse ou négative; et que si 𝑟 est supérieur à zéro et inférieur à un, alors nous avons une corrélation directe positive. On nous demande laquelle des options données est l’interprétation la plus appropriée d’un coefficient de corrélation produit-moment de 0,8. Comme cette valeur est positive, nous savons que nous avons une corrélation directe ou positive. Cela signifie que nous pouvons éliminer n’importe les options représentant une corrélation négative. Nous pouvons donc éliminer les options (A) et (B), car elles indiquent toutes deux une corrélation négative. Nous pouvons également éliminer l’option (E), car aucune corrélation nous donnerait un coefficient de corrélation nul. Et notre coefficient de corrélation est non nul ; c’est 0,8.

Cela nous laisse donc les options (C) et (D), une corrélation linéaire positive modérée ou une corrélation linéaire positive forte. Si nous considérons la grandeur du coefficient de corrélation, plus la corrélation est forte, plus la grandeur est proche de un. Et plus la valeur est proche de zéro, plus la corrélation est faible. Cela signifie qu’au milieu entre zéro, et un ou moins un, nous avons une corrélation modérée. Puisque le coefficient donné est 0,8, il est proche de un, on peut donc dire que cela représente une corrélation positive forte. Ainsi, l’interprétation la plus appropriée d’un coefficient de corrélation produit-moment de 0,8 est l’option (D), une forte corrélation linéaire positive.

Alors, maintenant que nous savons comment interpréter le coefficient de corrélation produit-moment de Pearson, voyons comment nous pouvons le calculer. Il existe plusieurs façons d’écrire la formule du coefficient de corrélation produit-moment de Pearson. La méthode que nous allons utiliser est écrite ici. Une écriture équivalente du coefficient de corrélation est 𝑆 indice 𝑥𝑦 sur racine carrée de 𝑆 indice 𝑥𝑥 multiplié par 𝑆 indice 𝑦𝑦, où les S se calculent comme indiqué ici. En regardant maintenant notre formule, nous rappelons que la notation Σ majuscule représente la somme, 𝑛 représente le nombre de couples de données, et 𝑥𝑦 représente le produit des valeurs 𝑥 et 𝑦 dans chaque couple de données. Voyons un exemple d’utilisation de la formule à partir de données statistiques.

Soit une série statistique résumée comme suit. 𝑛 égale huit. La somme des 𝑥 est 78. La somme des 𝑦 est moins 73. La somme des produits 𝑥𝑦 est moins 752. La somme des 𝑥 au carré est 792. La somme des valeurs 𝑦 au carré est 735. Calculez le coefficient de corrélation produit-moment de cette série statistique, en donnant votre réponse au millième près.

On nous donne les valeurs de synthèse d’un ensemble de données à deux variables que nous devons utiliser pour calculer le coefficient de corrélation produit-moment de Pearson. Si on reprend la formule indiquée, on nous donne une valeur 𝑛 de huit. C’est le nombre de couples de données de notre série statistique. On nous donne la somme des valeurs 𝑥, c’est 78, la somme des valeurs 𝑦, qui est moins 73, la somme des produits 𝑥𝑦, c’est moins 752, la somme des valeurs carrés de 𝑥, qui est 792, et la somme des carrés de 𝑦, qui est 735. Donc, il ne nous manque plus que la somme des valeurs de 𝑥, au carré, et la somme des valeurs de 𝑦 au pour calculer notre formule.

La somme des 𝑥, au carré est 78 au carré. C’est 6084. La somme des 𝑦, au carré est moins 73 au carré, soit 5329. En les ajoutant à notre liste et en libérant de l’espace, nous pouvons maintenant substituer nos valeurs dans notre formule. Nous avons la formule du coefficient de corrélation produit-moment indice 𝑥𝑦 comme indiqué. Et en calculant la valeur de notre numérateur et des deux racines carrées du dénominateur, nous obtenons moins 322 divisé par la racine carrée de 252 multiplié par la racine carrée de 551. Cela équivaut à moins 0,864 au millième près.

Le coefficient de corrélation doit être compris entre moins un et plus un. Et dans notre cas, c’est bien le cas. Puisque notre coefficient de corrélation est proche de moins un, nous pouvons l’interpréter comme une forte corrélation négative. Le coefficient de corrélation produit-moment, au millième près, pour la série statistique résumée ici est donc moins 0,864. Notez que vous verrez également le coefficient de corrélation simplement noté 𝑟.

Dans notre dernier exemple, nous allons calculer le coefficient de corrélation de Pearson de A à Z.

Le tableau de données ci-dessous représente les résultats de 15 concurrents au saut en hauteur et au saut en longueur lors de l’heptathlon féminin des Jeux olympiques de Rio en 2016. Calculez, au millième près, la valeur du coefficient de corrélation produit-moment entre les résultats du saut en longueur et du saut en hauteur. Que révèle le coefficient de corrélation sur la relation entre les résultats du saut en longueur et du saut en hauteur?

On nous donne un tableau de valeurs pour deux variables, les résultats du saut en longueur et du saut en hauteur pour 15 athlètes féminines aux Jeux olympiques de Rio. Il s’agit de données à deux variables, ce qui signifie que deux mesures sont enregistrées pour chaque athlète : à quelle distance ils ont sauté lors du saut en longueur et à quelle hauteur ils ont sauté lors du saut en hauteur. Ainsi, par exemple, l’athlète un a sauté 5,51 mètres au saut en longueur et 1,65 mètres au saut en hauteur. Et cette question comporte deux parties. On nous demande d’abord de calculer le coefficient de corrélation produit-moment, puis on nous demande une interprétation de cette valeur.

Pour la première partie de la question, nous allons utiliser la formule du coefficient de corrélation 𝑟 indice 𝑥𝑦 indiquée ici et que vous pouvez voir aussi noté 𝑟. Et pour utiliser cette formule, nous rappelons que la lettre Σ majuscule désigne la somme, et que 𝑛 est le nombre de couples de données. Dans notre cas, nous avons 15 athlètes ainsi 𝑛 est égal à 15. Commençons donc par nommer 𝑋 la variable du saut en longueur en mètres et 𝑌 la variable du saut en hauteur en mètres. Pour calculer notre coefficient, nous allons avoir besoin des différentes expressions dans la formule. Nous aurons besoin des produits 𝑥𝑦, des carrés des 𝑥 des carrés des 𝑦. Et donc, nous ajoutons quelques lignes à notre tableau pour nous aider dans nos calculs. Nous ajoutons également une colonne à la fin de notre tableau pour les sommes.

Commençons donc par déterminer les produits 𝑥𝑦 pour chaque athlète. Pour notre premier athlète, le produit est 5,51 multiplié par 1,65. Cela est égal à 9,0915. Et donc nous écrivons cela dans la première case de notre nouvelle ligne des 𝑥𝑦. De même, pour notre deuxième athlète, nous avons 5,72 multiplié par 1,77, ce qui vaut 10,1244. Et on écrit cela dans la deuxième case de la ligne 𝑥𝑦. Nous complétons le reste de la ligne de la même manière, en nous limitant à un arrondi au millième pour des raisons d’espace. Dans la deuxième nouvelle ligne de notre tableau, nous cherchons les valeurs des 𝑥 au carré. Ainsi, par exemple, notre première valeur sera 5,51 au carré, soit 30,3601. Par souci d’espace, nous nous limitons cette fois au centième pour remplir la ligne. En mettant au carré le reste de nos 𝑥, nous pouvons remplir le tableau comme cela.

Ensuite, nous prenons les carrés des valeurs du saut en hauteur, c’est-à-dire les valeurs des 𝑦 au carré, et nous remplissons notre tableau comme indiqué. Maintenant, remplissons notre colonne des sommes, où la somme des 𝑋, par exemple, est la somme de tous les résultats du saut en longueur. Et cela fait 91,43. La somme de tous les résultats du saut en hauteur, soit la somme des valeurs de 𝑌, est 27,21. La somme des produits 𝑥𝑦 est 166.1151; au dix-millième près. La somme des carrés des 𝑥 est 558,4923. Et la somme des carrés des 𝑦 est 49,4361. Donc, dans notre colonne des sommes, nous avons la somme des 𝑋, la somme des 𝑌, la somme des produits 𝑥𝑦, la somme des carrés des 𝑥 au et la somme des carrés des 𝑦. Maintenant, nous avons tout ce dont nous avons besoin.

Avec 𝑛, le nombre d’athlètes, égal à 15 et toutes les sommes de notre tableau, notre coefficient de corrélation peut être calculé comme indiqué. En utilisant nos calculatrices, nous pouvons calculer le numérateur et le dénominateur, nous obtenons cela. Nous avons donc 3,9162 divisé par 4.5567, chacun au dix-millième près, ce qui vaut 0,8594 au dix-millième près. Arrondi au millième près, à 3 chiffres après la virgule, cela nous donne un coefficient de corrélation produit-moment entre les résultats de saut en longueur et de saut en hauteur de 0,859.

Pour répondre à la deuxième partie de la question, concernant la relation entre les résultats du saut en longueur et du saut en hauteur, notre coefficient est très proche de un. Cela signifie qu’il existe une forte corrélation positive, c’est-à-dire une corrélation directe et linéaire entre les résultats des sauts en longueur et des sauts en hauteur pour les athlètes féminines des Jeux olympiques de Rio.

Terminons maintenant cette vidéo en rappelant certains points clés que nous avons abordés. Nous savons que corrélation ne signifie pas causalité. Cela indique simplement qu’une relation linéaire existe entre deux variables et cela nous donne une idée de la force et de la direction de la relation. Nous savons que le coefficient de corrélation produit-moment s’applique aux données à deux variables. Le coefficient prend des valeurs comprises entre moins un et un. Plus 𝑟 est proche de moins un ou un, plus la corrélation est forte. Et inversement, plus 𝑟 est proche de zéro, plus la corrélation entre les deux variables est faible.

Et si le coefficient de corrélation est égal à zéro, il n’y a pas de corrélation linéaire. Un coefficient de corrélation positif indique une relation linéaire directe ou positive entre les variables, tandis qu’un coefficient négatif indique une corrélation linéaire inverse ou négative. Et pour calculer le coefficient de corrélation produit-moment de Pearson pour une série bivariée, nous utilisons la formule indiquée ici où le coefficient peut être noté soit 𝑟 indice 𝑥𝑦, soit tout simplement 𝑟.

Nagwa utilise des cookies pour vous garantir la meilleure expérience sur notre site. En savoir plus sur notre Politique de Confidentialité.