Transcription de la vidéo
Déterminez le coefficient de corrélation de Spearman entre les ventes et la promotion à partir des données suivantes.
Nous avons donc ici un tableau, qui se compose de quatre couples de données représentant la promotion et les ventes, certainement le montant d’argent dépensé en promotion et le montant d’argent gagné en ventes, ou peut-être le nombre d’unités vendues. Et nous devons calculer le coefficient de corrélation de Spearman entre ces deux variables pour cet ensemble de données.
Le coefficient de corrélation de Spearman, ou le coefficient de corrélation des rangs de Spearman, est une mesure de la corrélation entre les rangs des deux variables. Il mesure la tendance d’une variable à augmenter quand l’autre augmente, mais cette relation ne doit pas nécessairement être linéaire. Par exemple, dans cette série de données, on peut voir que chaque fois que 𝑥 augmente, 𝑦 augmente également bien que la relation entre les deux variables ne soit pas linéaire. Cela correspondrait à un coefficient de corrélation des rangs de Sperman de un, souvent désigné par 𝑟 avec un indice 𝑠. Il s’agit de la valeur maximale qu’il peut prendre.
Ce coefficient de corrélation est en réalité compris entre moins un et plus un inclus : une valeur de plus un signifie qu’il existe une corrélation positive parfaite entre les des rangs des couples de données et une valeur de moins un représente l’opposé. C’est-à-dire une corrélation négative parfaite entre les rangs des couples de données. Ce qui signifie que la plus grande valeur de 𝑥 serait associée à la plus petite valeur de 𝑦. La deuxième plus grande valeur de 𝑥 serait associée à la deuxième plus petite valeur de 𝑦, et ainsi de suite.
Le coefficient de corrélation des rangs de Spearman n’utilise pas les données brutes d’origine. Il utilise leurs rangs à la place, et nous allons voir comment les attribuer dans un instant. Il existe de plus une formule permettant de calculer ce coefficient. Il est égal à un moins six fois la somme des 𝑑 𝑖 au carré sur 𝑛 fois 𝑛 au carré moins un. Où 𝑑 𝑖 est la différence entre les rangs du 𝑖 ième couple de données. C’est-à-dire le couple de données 𝑥 𝑖, 𝑦 𝑖. Et 𝑛 est le nombre de couples de données. Donc, dans ce cas, 𝑛 est égal à quatre. Avant de pouvoir calculer ce coefficient de corrélation, nous devons donc d’abord attribuer les rangs à chacune des valeurs des variables. Nous ajoutons deux nouvelles lignes à notre tableau pour les rangs de la promotion et les rangs des ventes. Peu importe si on choisit de classer les données dans l’ordre croissant ou décroissant, à condition que le même ordre soit appliqué aux deux variables. Choisissons donc d’attribuer le rang un aux plus petites valeurs.
En observant la ligne des données de promotion, nous pouvons voir que la plus petite valeur est 800. Donc, elle obtient le rang un. Nous avons ensuite deux valeurs qui sont égales. Il y a deux valeurs de 1 000. Elles correspondraient à la deuxième et troisième places dans une liste ordonnée des données de promotion. Nous leur assignons donc à chacune la moyenne de ces rangs. C’est la moyenne de deux et trois, soit 2,5. Comme ces données ont la même valeur, elles obtiennent toutes les deux le même rang. Enfin, la plus grande valeur de promotion est 1 500. Et elle correspondrait à la quatrième valeur d’une liste ordonnée. Donc on lui donne le rang quatre.
On attribue ensuite les rangs aux données de ventes de la même manière. Et on voit immédiatement que les deux plus petites valeurs sont identiques. Elles sont tous les deux égales à 4 500. Il s’agirait des première et deuxième valeurs dans une liste ordonnée. Donc elles obtiennent un rang moyen de 1,5. Car il s’agit de la moyenne entre un et deux. On attribue ensuite le rang trois à la plus petite valeur suivante - c’est-à-dire 5 000 - et enfin le rang quatre à la plus grande valeur, 6 500. En affectant les rangs aux données de cette manière, nous pouvons vérifier que la somme des rangs attribués à chaque variable est identique. Dans ce cas, elle est égale à 10.
Nous devons ensuite calculer la différence entre les rangs de chaque couple de données. L’ordre dans lequel on soustrait les rangs n’a pas d’importance, mais encore une fois, il doit être le même pour tous les couples. Nous allons ici soustraire le rang des données de vente au rang des données de promotion. Cela nous donnera les valeurs de 𝑑 𝑖. Rappelez-vous que 𝑑 𝑖 était la différence entre les rangs du 𝑖 ième couple de données. On a tout d’abord 2,5 moins trois, ce qui donne moins 0,5, puis un moins 1,5, ce est aussi égal à moins 0,5, puis 2,5 moins 1,5, soit un, et quatre moins quatre, ce qui fait zéro.
Et nous pouvons effectuer une vérification à ce stade. La somme des différences entre les rangs doit toujours être égale à zéro. Nous avons ici des valeurs positives et des valeurs négatives. Et en les additionnant, on obtient 0,5 plus moins 0,5, ce qui fait moins un plus un, donc zéro. Et en ajoutant zéro, on a toujours zéro. Donc la somme des valeurs de cette ligne de notre tableau est bien égale à zéro, ce qui semble nous confirmer que ce que nous avons fait jusqu’à présent est correct.
Et nous avons enfin besoin d’une dernière ligne dans le tableau pour calculer ces différences au carré car en observant la formule du coefficient de corrélation de Spearman, nous pouvons voir qu’elle utilise la somme des 𝑑 𝑖 au carré, et non la somme des 𝑑 𝑖. Et cela est important car comme nous venons de le voir, la somme des 𝑑 𝑖 est toujours égale à zéro. Donc, en remplissant cette ligne du tableau, on a moins 0,5 au carré pour les deux premières valeurs, ce qui fait 0,25, un au carré, qui est égal à un, et zéro au carré, soit zéro. Et c’est pour cela que le sens dans lequel on soustrait les rangs n’a pas d’importance : on finit par les mettre au carré dans la formule. Et si on calcule moins 0,5 ou plus 0,5 au carré, on obtient toujours le même résultat de 0,25.
Nous devons ensuite calculer la somme de ces différences au carré. On a ainsi 0,25 plus 0,25 plus un plus zéro, ce qui est égal à 1,5. Et nous sommes maintenant prêts à remplacer ces valeurs dans la formule du coefficient de corrélation de Spearman. En substituant la somme des 𝑑 𝑖 au carré égale à 1,5 et 𝑛 égal à quatre, on a 𝑟 𝑠 égale un moins six fois 1,5 sur quatre fois quatre au carré moins un. Remarquez bien que le un ne fait pas partie du numérateur de la fraction. On a un moins, suivi de la fraction. Une erreur courante consiste à penser que la fraction s’étend jusqu’au un et qu’il fait partie du numérateur. Mais ce n’est pas le cas. On peut essayer d’éviter cette erreur en écrivant le un en un peu plus grand.
Donc, six fois 1,5, égale neuf. Et au dénominateur, quatre au carré égale 16 moins un font 15. On a donc un moins neuf sur quatre fois 15. On peut ensuite annuler un facteur trois au numérateur et au dénominateur de la fraction, ce qui donne un moins trois sur quatre fois cinq ou un moins trois sur 20. Et cela est égal à 17 sur 20. En convertissant cette fraction sous forme décimale, on trouve que la valeur du coefficient de corrélation de Spearman entre les ventes et la promotion est de 0,85. Cela nous indique qu’il existe une corrélation positive assez forte entre les rangs de la promotion et des ventes de cette série statistique. Quand la valeur de promotion augmente, la valeur des ventes augmente également, mais pas nécessairement de manière linéaire. Nous pourrions bien sûr confirmer cela en traçant un nuage de points des deux variables.