Vidéo de la leçon : Coefficient de corrélation de Spearman | Nagwa Vidéo de la leçon : Coefficient de corrélation de Spearman | Nagwa

Vidéo de la leçon : Coefficient de corrélation de Spearman Mathématiques

Dans cette vidéo, nous allons apprendre à trouver le coefficient de corrélation de Spearman.

19:20

Transcription de vidéo

Dans cette vidéo, nous allons apprendre à trouver le coefficient de corrélation de Spearman. Vous connaissez déjà le concept de corrélation. Vous saurez que le coefficient de corrélation de Pearson peut donner une indication de l’existence, de la force et de la direction d’une relation linéaire entre deux variables quantitatives, c’est-à-dire variables numériques. Mais le coefficient de Pearson ne peut être calculé que pour des données quantitatives. Si nos données sont non numériques, c’est-à-dire descriptives ou qualitatives, et ont un certain ordre ou classement, nous ne pouvons pas utiliser le coefficient de corrélation de Pearson, mais nous pouvons utiliser le coefficient de corrélation de Spearman.

Dans cette vidéo, nous allons voir comment calculer le coefficient de corrélation de Spearman à l’aide de la formule et déterminer quel type d’association nous avons entre les ensembles de données appariés et quand cette association existe-t-elle. Ce sont des données bivariées. Nous pouvons également calculer le coefficient de corrélation de Spearman pour les données numériques. Et cela est particulièrement utile si nous avons, par exemple, des valeurs aberrantes dans notre ensemble de données.

N’oubliez pas que lorsque nous traçons des données numériques appariées sur un nuage de points, nous recherchons une relation entre les deux variables. Si nous avons une relation linéaire, nous pouvons utiliser le coefficient de corrélation de Pearson pour déterminer la force et la direction de la relation. Nous savons que si le coefficient de corrélation est proche de plus un, nous avons une forte corrélation directe ou positive entre les variables. Et si 𝑟 est proche de moins un, nous avons une forte corrélation inverse ou négative. Si 𝑟 est nul, nous n’avons aucune corrélation. Et si notre relation est non linéaire, nous ne pouvons pas utiliser le coefficient de corrélation de Pearson. Et nous rappelons que le coefficient de corrélation de Pearson prend des valeurs de moins un à plus un.

Maintenant, avec des données classées ou ordonnées, encore une fois, le coefficient de corrélation est compris entre plus un et moins un. Mais maintenant l’interprétation est légèrement différente. Si le coefficient de corrélation de Spearman est proche de ou exactement un, nous avons un accord ou une association parfaite entre les rangs. Si 𝑟 s est égal à zéro, alors il n’y a pas d’accord ou d’association entre les rangs de nos données bivariées. Et si 𝑟 s est moins un, nous avons une association parfaite opposée ou inverse entre les rangs de nos données bivariées.

Notez également que parfois le coefficient de corrélation de Spearman est appelé 𝜌 de Spearman. C’est la lettre grecque 𝜌. Pour calculer le coefficient de Spearman, si nos données ne sont pas déjà classées, ceci est notre première étape. Nous trouvons ensuite les différences entre les rangs, soit 𝑑 𝑖, pour chaque paire de données. Nous mettons ensuite chacun de ces carrés au carré et prenons la somme des carrés. Et si 𝑛 est le nombre de points de données bivariées, 𝑖 prend des valeurs de un à 𝑛, et nous avons donc 𝑛 différences au carré.

Maintenant, compte tenu de cette formule et de ce que nous savons des valeurs possibles du coefficient de corrélation de Spearman, c’est-à-dire que moins un est inférieur ou égal à 𝑟 s, qui est inférieur ou égal à un, est-il vrai que lorsque les rangs de chacun des deux éléments correspondants dans deux groupes de données 𝑋 et 𝑌 sont identiques, le coefficient de corrélation de Spearman est égal à un ? Eh bien, nous savons que le coefficient de corrélation de Spearman est utilisé pour déterminer la relation entre l’ordre ou le classement des données bivariées et que si le coefficient de corrélation est égal à un, nous avons une corrélation parfaite ou un accord parfait. Alors regardons ceci du point de vue d’un exemple.

Supposons que nous ayons deux juges, 𝑋 et 𝑌, classant cinq gâteaux du meilleur, qui est un, au pire, qui est cinq. Et supposons que le classement des juges concorde exactement. Si nous n’avons pas résolu les différences de rangs, alors parce que les juges sont d’accord, les différences sont toutes égales à zéro. Et puis, bien sûr, toutes les différences au carré sont égales à zéro.

Et rappelez-vous que le coefficient de corrélation de Spearman est un moins six fois la somme de toutes les différences au carré sur 𝑛 fois 𝑛 au carré moins un. Et dans notre exemple, toutes les différences au carré sont égales à zéro. Ainsi la somme des différences au carré est également nulle. Alors dans notre formule, au numérateur, nous avons zéro. Nous avons cinq gâteaux, donc 𝑛 est égal à cinq. Et notre coefficient de corrélation est un moins six fois zéro sur cinq fois cinq au carré moins un. Et puisque notre deuxième terme est égal à zéro, puisque tout ce qui est multiplié par zéro est zéro, notre coefficient de corrélation est égal à un.

Donc certainement, dans notre exemple, où les rangs des deux groupes sont identiques, le coefficient de corrélation de Spearman est en effet égal à un. Mais si nous pensons en termes plus généraux, la différence pour chaque paire de données est son rang dans 𝑌 soustrait de son rang dans 𝑋. Et si les deux rangs sont d’accord, alors leur différence est de zéro. Et si ceci est vrai pour tout 𝑖, alors 𝑑 𝑖 au carré est égal à zéro, de sorte que la somme des 𝑑 𝑖 au carré est également égale à zéro. Et si la somme des 𝑑 𝑖 au carré, les différences au carré sont égales à zéro, alors notre deuxième terme sera toujours zéro.

Et si notre deuxième terme est zéro, alors le coefficient de corrélation de Spearman doit être égal à un. L’affirmation que si les rangs de deux éléments correspondants dans deux groupes de données 𝑋 et 𝑌 sont identiques, le coefficient de corrélation de Spearman égal à un est vrai. Dans cet exemple, nous avons utilisé des données déjà classées. Mais le plus souvent, nous commençons avec une série de données bivariées et nous devons classer les données nous-mêmes.

Est-il vrai que lorsque le coefficient de corrélation de rang de Spearman pour deux groupes de données est égal à un, ceci signifie-t-il que les points de données se trouvent parfaitement sur une droite ?

Nous savons que lorsque le coefficient de corrélation de Spearman est égal à un, nous avons un accord parfait entre les rangs des données. Et si le coefficient de corrélation de Spearman est égal à un, alors le terme contenant la somme des différences au carré doit être égal à zéro. Voyons donc ce dernier exemple. Supposons que nous ayons le temps en minutes nécessaire pour que cinq étudiants passent un test et leurs notes soient notées en pourcentage. Et maintenant supposons que nous classions à la fois notre temps et nos notes, en prenant le temps le plus court et les notes les plus basses comme un et les plus élevées comme cinq. Et maintenant, si nous calculons la différence de rangs, chacune des différences est nulle car les rangs sont en parfait accord.

Maintenant, si nous égalisons toutes les différences, chacune d’elles est égale à zéro car zéro au carré est égal à zéro. Et donc la somme des différences au carré est également nulle. Et si nous mettons ceci dans notre formule, la somme des 𝑑 𝑖 au carré est égale à zéro, donc le deuxième terme est égal à zéro comme nous l’attendions. Mais supposons maintenant que nous traçons nos données de départ. Nous pouvons voir dans notre nuage de points que bien que le rang de Spearman soit égal à un, les points de données eux-mêmes ne se trouvent pas parfaitement sur une ligne droite. Et ceci signifie que notre affirmation est fausse.

En général, le fait que les rangs des données soient égaux signifie que si nous traçons les rangs, ils se trouveraient sur une ligne droite parfaite. Mais ce n’est pas nécessairement le cas pour les données de départ.

Voyons maintenant un exemple de calcul du coefficient de corrélation Spearman pour certaines données quantitatives à deux variables.

Trouvez le coefficient de corrélation de Spearman entre le prix du produit et sa durée de vie à partir des données établies. Arrondissez votre réponse aux dix millièmes près.

On nous donne un tableau avec la durée de vie en années et le prix en dollars. Et on nous demande de trouver le coefficient de corrélation de Spearman entre les données appariées. Nous utilisons le terme apparié parce que chaque paire de données se réfère uniquement à un produit, de sorte que le produit avec une durée de vie d’un an a un prix de 79 dollars, par exemple. Maintenant pour utiliser la formule donnée pour calculer le coefficient de corrélation de Spearman, nous devons connaître le nombre de paires de données 𝑛. Et nous devons connaître la différence de rangs pour chaque paire de données, et nous calculons ensuite la somme des différences au carré.

Maintenant, puisque les données de durée de vie sont déjà ordonnées de manière séquentielle, c’est-à-dire, qu’elles vont de un à six sans omissions, les données de durée de vie sont déjà classées. Nous pouvons donc simplement utiliser les données elles-mêmes comme rang. Cependant, pour plus de clarté, écrivons à nouveau dans une nouvelle ligne. Et ensuite, nous devons classer nos données de prix. En remarquant qu’un prix bas correspond à un rang inferieur dans la vie, nous pouvons également commencer notre classement de prix à un aussi afin que nous classions le prix 79 comme un. Notre prochain prix le plus bas est de 103 dollars, qui peut être classé deuxième. Notre troisième plus bas est 105, qui est classé troisième, et ainsi de suite, de sorte que 125 est classé quatrième, 160 dollars est classé cinquième et 214 dollars est classé sixième.

Notre prochaine étape consiste à déterminer la différence de rangs pour chaque paire de données. Nous soustrayons le rang de prix du rang de vie, de sorte que, dans la première colonne, nous avons un moins un est égal à zéro. Et pour une durée de vie de cinq ans et un prix de 160 dollars, nous avons cinq moins cinq est égal à zéro. Ensuite, quatre moins quatre est égal à zéro, deux moins trois est moins un, six moins six est zéro et trois moins deux est égal à un. Notre prochain calcul est la différence de rangs au carré de sorte que nous avons zéro au carré est zéro et ainsi de suite pour le reste de nos différences. Et maintenant pour utiliser le coefficient de corrélation de Spearman, nous avons besoin de la somme des différences au carré, c’est-à-dire, zéro plus zéro plus zéro plus un plus zéro plus un, qui est égal à deux.

Il convient de noter à ce stade que si nous additionnons les différences de rangs, nous obtenons zéro, et ceci devrait toujours être le cas. Dans notre cas, nous avons zéro plus zéro plus zéro plus moins un plus zéro plus un, et c’est égal à zéro. Pour utiliser la formule, nous devons également connaître le nombre de paires de données, et nous avons six paires de données donc 𝑛 est égal à six.

Alors maintenant faisant de la place, nous avons tout ce dont nous avons besoin pour notre formule afin que le coefficient de corrélation de Spearman pour ces données soit un moins six fois deux sur six fois six au carré moins un. C’est un moins 12 sur 6 fois 35, où six fois 35 est 210, ce qui est approximativement égal à un moins 0,05714. Ceci nous donne le coefficient de corrélation de Spearman approximativement égal à 0,94286. Ainsi, aux dix millièmes, le coefficient de corrélation de Spearman pour ces données est de 0,9429. Comme cette valeur est très proche de un, nous pouvons l’interpréter comme une relation ou une association directe très forte entre la durée de vie d’un produit en années et son prix en dollars. Autrement dit, plus le prix est élevé, plus le produit dure longtemps.

Il est peut-être intéressant de noter que si notre coefficient était négatif à moins 0,9429, notre interprétation serait exactement le contraire. Dans ce cas, nous interpréterons la valeur comme étant plus le prix est élevé, plus la durée de vie est courte . La relation serait toujours extrêmement forte puisque maintenant moins 0,9429 est très proche de moins un. Mais dans ce cas, ce serait une association inverse. Souvent, lorsque nous avons des données à deux variables pour lesquelles nous souhaitons trouver le coefficient de corrélation de Spearman, nous constatons que nous avons des rangs liés.

Ceci se produit lors du classement des données. Si deux points de données ou plus sont identiques, leur rang est alors la moyenne des nombres de places qu’ils occupent dans la liste ordonnée. Supposons, par exemple, que nous ayons une série statistique pour la variable 𝑋 avec les valeurs 20, 30, 20, 10 et cinq. Si nous voulons classer nos données de bas en haut, nous notons que cinq est la valeur la plus basse, donc ceci vient avec le rang un. 10 est la valeur la plus basse suivante, donc ceci a le rang deux.

Mais maintenant nous avons deux valeurs de 20 de sorte que la valeur de 20 occupe les troisième et quatrième places de notre liste ordonnée. Nous prenons donc la moyenne des nombres de places que ces deux 20 représentent. C’est trois plus quatre divisé par deux et c’est égal à 3,5 de sorte que les deux places de 20 sont classées 3,5. Et comme les troisième et quatrième places sont occupées, nous classons notre dernière donnée en cinquième position.

Voyons donc comment ceci fonctionne dans un exemple.

Le tableau représente la puissance et le diamètre du rotor de plusieurs hélicoptères. Trouvez le coefficient de corrélation de Spearman et arrondissez votre réponse aux dix millièmes.

On nous donne un ensemble de données appariées pour la puissance de sortie et le diamètre du rotor de certains hélicoptères. Nous utilisons le terme données appariées car chaque paire de données est propre à un hélicoptère. Ainsi, par exemple, l’hélicoptère d’une puissance de 1218 kilowatts a un diamètre de rotor de 10,2 mètres. Et pour calculer le coefficient de corrélation de Spearman, nous utiliserons la formule donnée. Dans cette formule, 𝑛 correspond au nombre de paires de données. 𝑑 𝑖 correspond à la différence de rangs pour chaque paire, où 𝑖 prend la valeur de un à 𝑛, et nous calculons la somme des différences au carré.

La première chose à faire est de classer chacun de nos deux ensembles de données. Et pour ce faire, faisons de la place. Si nous commençons par classer la puissance de sortie, nous pourrions commencer par la puissance la plus faible ou la plus élevée. Ceci ne devrait avoir aucune incidence sur le coefficient de corrélation de Spearman, à condition de nous en tenir à la même direction pour le classement des diamètres du rotor. Commençons donc avec la dernière sortie de puissance, qui est 944, que nous classons comme un. Et pour éviter toute confusion plus tard, supprimons ceci. Notre prochaine puissance la plus faible est 1218, nous pouvons donc éliminer ceci et classer ces deux. Et le suivant le plus bas est 1864, que nous pouvons classer troisième. 3324 peut être classé quatrième, 3552 est classé cinquième, 3758 est classé sixième, et notre puissance la plus élevée est 4698, qui est classé septième.

Et maintenant pour nos diamètres de rotor, notre valeur la plus basse est de 10,2 mètres. Mais ceci se produit deux fois, si bien que nous avons des rangs liés pour la première place. La façon dont ceci fonctionne statistiquement, cependant, est que nous prenons la moyenne des places que ces points de données occuperaient. Ce sont les première et deuxième places de sorte que les rangs des deux points de données avec des valeurs 10,2 ou un plus deux sur deux. C’est la première place et la deuxième place sur deux, qui est 1,5, de sorte que nos deux cas d’un diamètre de rotor de 10,2 mètres sont classées 1,5. Et nous pouvons supprimer ces deux.

Maintenant, notre troisième valeur la plus basse est 14, nous pouvons donc retirer ceci. Et comme les première et deuxième places ont déjà été prises par les valeurs de 10,2, nous devons nous classer au troisième rang. Notre prochaine valeur la plus basse est 16,2, que nous classons en quatrième position, suivie de 16,3, qui est classée cinquième, suivie de 17,7, qui est classée sixième, et enfin de 18,59, qui est classée septième.

Maintenant, pour utiliser notre formule, nous avons besoin des différences de rangs au carré pour chaque paire de données. Alors prenons d’abord les différences de rangs. Pour ce faire, nous soustrayons le rang de diamètre du rang de puissance pour chaque paire de sorte que, dans notre première colonne de données, nous avons deux moins 1,5, ce qui est 0,5, pour notre colonne suivante, trois moins trois, qui est zéro, un moins 1,5, ce qui est moins 0,5. Nous avons sept moins sept est zéro, cinq moins quatre est un, quatre moins cinq est moins un et six moins six est zéro.

Notre prochaine étape consiste à déterminer les différences au carré. Dans notre première colonne, 0,5 carré est 0,25. Dans notre deuxième colonne de données, zéro au carré est zéro. Dans notre troisième colonne, moins 0,5 carré est 0,25. Dans notre quatrième colonne, zéro au carré est zéro. Dans notre cinquième colonne, un carré est un. Dans notre sixième colonne, moins un carré est un. Et dans notre dernière colonne, zéro au carré est zéro.

Maintenant pour une formule, nous voulons la somme des différences au carré. C’est-à-dire 0,25 plus zéro plus 0,25 plus zéro plus un plus un plus zéro, soit 2,5. Maintenant, avant d’utiliser la formule, vérifions simplement que la somme des différences est égale à zéro comme elle le devrait être. Nous avons 0,5 plus zéro plus moins 0,5 plus zéro plus un plus moins un plus zéro, et c’est égal à zéro.

Maintenant nous avons sept paires de données pour que notre 𝑛 soit égal à sept. Et donc le coefficient de corrélation de Spearman est un moins six fois 2,5 sur sept fois sept au carré moins un. C’est un moins 15 sur 336. Si vous faites cela sur votre calculatrice, il est très important à ce stade de séparer le un de la fraction. Et pour ce faire, nous calculons 15 divisé par 336 ; soit 0,04464. Et donc le coefficient de corrélation de Spearman pour ces données est de 0,9554 aux dix millièmes près.

Nous complétons cette vidéo en notant quelques points clés. Le coefficient de corrélation de Spearman s’applique aux données bivariées ordonnées. Il prend des valeurs de moins un à plus un. 𝑟 est proche de plus un ou moins un, correspond à un fort accord direct ou inverse, et la somme des différences de rangs est toujours égale à zéro.

Téléchargez l’appli Nagwa Classes

Assistez à des séances, chattez avec votre enseignant ou votre classe et accéder à des questions en lien avec la classe. Téléchargez l’appli Nagwa Classes dès aujourd’hui !

Nagwa utilise des cookies pour vous garantir la meilleure expérience sur notre site. En savoir plus sur notre Politique de Confidentialité.