Video Transcript
Dans cette vidéo, nous allons apprendre à utiliser la corrélation linéaire, et à distinguer les différents types de corrélation. Pensons à ce qui se passe lorsque nous traçons un diagramme de dispersion. Un nuage de dispersion peut être utilisé pour représenter des données à deux variables, où une série statistique est associée à une autre série statistique. Par exemple, nous pourrions envisager d’associer les précipitations quotidiennes à New York aux ventes de poulet frit en livres. En regardant le nuage de dispersion, il semble y avoir un modèle ou une tendance. Dans ce cas, plus les précipitations quotidiennes augmentent, plus les ventes de poulet frit augmentent. Dans ce cas, nous pourrions dire que ces deux séries statistiques ont une corrélation, ce qui signifie qu’il semble y avoir une sorte de relation entre eux.
Il convient de noter que s’il vous semble avoir une corrélation, cela ne signifie pas nécessairement qu’un lien de causalité existe. En d’autres termes, nous ne pouvons pas nécessairement supposer que les précipitations quotidiennes entraînent en fait une augmentation des ventes de poulet frit.
Maintenant, d’après ce raisonnement, définissons complètement le mot corrélation. Nous disons que deux séries statistiques sont corrélés quand il semble y avoir une relation entre eux. Nous pouvons utiliser un nuage de dispersion pour déterminer si cette corrélation existe. Maintenant, plus spécifiquement, si nous traçons ces points sur un nuage de dispersion et qu’ils semblent principalement se trouver le long d’une droite, alors ils sont censés être linéairement corrélés. De même, s’ils suivent une tendance non linéaire, telle qu’une courbe ou une tendance logarithmique, ils sont alors censés être non linéairement corrélés. Et, bien sûr, si une telle tendance n’existe pas, il n’y aurait pas de corrélation.
Considérons la corrélation linéaire dont nous avons parlé. Un nuage de dispersion montrant deux variables linéairement corrélées pourrait ressembler un peu à ceci. De même, cela pourrait ressembler à quelque chose comme ça. Dans les deux cas, les points de données semblent se situer approximativement le long d’une droite. Dans notre deuxième exemple, les points pourraient ressembler un peu à ceci. Dans ce cas, la droite de meilleur ajustement est une courbe. Enfin, s’il n’y a pas de corrélation, notre nuage de dispersion pourrait ressembler à quelque chose comme ça. Dans chacun de ces cas, nous avons examiné si nous pouvons réellement tracer une droite de meilleur ajustement à travers chacun de nos points. La forme de la droite de meilleur ajustement nous donne alors des informations sur le type de corrélation, si elle existe.
Donc, en gardant ça à l’esprit, regardons comment comparer une droite de meilleur ajustement avec des données sur un nuage de dispersion. Et cela nous aidera à déterminer si les données sont corrélées linéairement.
Peut-on utiliser la droite de meilleur ajustement pour décrire la tendance des données ? Pourquoi ?
Et puis nous avons un nuage de dispersion avec une droite de meilleur ajustement. Imaginons que cette droite supposée la mieux ajustée n’ait pas été tracée sur la figure. Comment pourrions-nous construire notre propre droite de meilleur ajustement ? Comment trouverions-nous une droite qui décrit plus précisément la tendance des données indiquées par les points bleus ? Eh bien, cela pourrait ressembler à quelque chose comme ça. Oui, lorsque les valeurs de 𝑥 augmentent, les valeurs de 𝑦 augmentent également. Mais nous pouvons voir que ce n’est pas nécessairement en ligne droite. Cela signifie que 𝑥 et 𝑦 semblent être corrélés. Mais nous dirions qu’ils sont corrélés de manière non linéaire. La droite de meilleur ajustement n’est pas une ligne droite.
Et donc, ce ne serait pas une droite exacte de meilleur ajustement pour décrire la tendance au niveau des données. Nous ne voudrions certainement pas utiliser cette droite de meilleur ajustement pour faire des prédictions ou des estimations basées sur les données fournies, et la raison en est que ces données ne sont pas corrélées linéairement. Il ne suit pas approximativement une ligne droite.
Maintenant, bien que ce ne serait pas une droite exacte de meilleur ajustement pour décrire la tendance dans les données, nous avons dit que la droite de meilleur ajustement et la tendance apparente dans les données montrent que lorsque les valeurs de 𝑥 augmentent, les valeurs de 𝑦 semblent également augmenter. Et il y a quelques expressions que nous pouvons utiliser pour décrire cela. Nous disons que deux séries statistiques sont corrélées positivement, ou corrélées directement, si une série augmente avec l’autre. Dans le cas d’une corrélation linéaire positive, les points de données pourraient ressembler un peu à ceci. Si les séries statistiques sont corrélées négativement ou inversement, alors à mesure qu’une série augmente, l’autre diminue, et vice versa. Dans le cas de deux séries statistiques ayant une corrélation linéaire négative, les points semblent suivre une droite qui descend vers le bas, comme nous le voyons.
Donc, en gardant ça à l’esprit, déterminons si les données sont corrélées positivement ou négativement, ou ni l’un ni l’autre, en utilisant une droite de meilleur ajustement.
Quel type de corrélation existe entre les deux variables du nuage de dispersion donné ?
Lorsque nous pensons à la corrélation, nous considérons la corrélation linéaire — en d’autres termes, aux points qui suivent approximativement une ligne droite — nous pensons à la corrélation non linéaire — ce sont des points qui pourraient suivre un type de tendance différent, par exemple une courbe. Et si les choses sont corrélées linéairement, nous considérons qu’elles peuvent être corrélées linéairement positivement, ou corrélées négativement linéairement, d’après la direction de la droite du meilleur ajustement. Alors, examinons le graphique qui a été tracé ici et voyons si nous pouvons tracer une droite de meilleur ajustement.
La droite de meilleur ajustement, bien sûr, n’a pas besoin de passer par l’origine, le point zéro, zéro, bien qu’ici, il semble que cela puisse être le cas. Et cette droite de meilleur ajustement devrait suivre à peu près la tendance de nos points. Nous pouvons maintenant remarquer que notre droite de meilleur ajustement tend vers le haut. En d’autres termes, elle a une pente positive. Donc, cela nous dit que tant que les valeurs de 𝑥 augmentent, les valeurs de 𝑦 augmentent. Dans ce cas, les variables 𝑥 et 𝑦 sont corrélées positivement. Plus précisément, puisque ces points suivent également approximativement une ligne droite, nous pouvons dire que la corrélation est linéaire. Et donc nous avons complètement répondu à la question. Le type de corrélation donné est une corrélation linéaire positive.
Maintenant, dans cet exemple, on nous a donné un nuage de dispersion d’une série statistique. Cela peut ne pas toujours être le cas. On pourrait plutôt nous donner une description du type de variable. Comme nous le verrons maintenant, nous devrons ensuite utiliser notre compréhension de la relation entre les variables les unes des autres pour déterminer si elles sont corrélées positivement ou négativement ou pas du tout.
Supposons que la variable 𝑥 est le nombre d’heures que vous travaillez, et que la variable 𝑦 est votre salaire. Vous pensez que plus vous travaillez d’heures, plus votre salaire est élevé. Est-ce que cette situation représente ne corrélation positive, une corrélation négative ou aucune corrélation ?
On nous dit que la variable 𝑥 est le nombre d’heures travaillées, tandis que la variable 𝑦 est le salaire. Et on cherche à trouver une relation, s’il existe, entre ces deux variables. Maintenant, en fait, on soupçonne que plus vous travaillez d’heures, plus votre salaire est élevé. Alors, essayons de tracer cela sur un nuage de dispersion. La variable 𝑥 est le nombre d’heures travaillées, tandis que 𝑦 est le salaire, et on peut alors désigner les axes comme indiqué. Indiquons quelques nombres de départ. Imaginons que si vous travaillez 15 heures, vous gagnerez 20 000 livres. Vous pouvez alors supposer que si vous travaillez 30 heures par semaine, vous gagnez un salaire annuel de 40 000 livres. En supposant que plus vous travaillez d’heures, plus votre salaire est élevé, nous pourrions ajouter des points supplémentaires sur notre nuage de dispersion, comme indiqué.
Nous remarquons que les points tracés approximativement suivent une ligne droite et que cette droite a une pente positive. Elle se dirige vers le haut. Comme cette droite se dirige vers le haut, on peut dire que les deux variables 𝑥 et 𝑦 doivent avoir une corrélation positive. Maintenant, nous avons également supposé que c’était une corrélation linéaire positive, mais ce n’est peut-être pas le cas. Nous savons seulement que plus le nombre d’heures est élevé, plus le salaire est élevé, ce qui signifie que c’est un exemple de corrélation positive.
Maintenant, dans cet exemple, nous avons modélisé nos points de données comme s’ils étaient situés très étroitement par rapport à une droite. La distance entre les points de données et une droite de meilleur ajustement décrit le degré de la corrélation. Par exemple, supposons que nous sommes intéressés par une corrélation linéaire positive. Si tous les points sont très proches de la droite de meilleur ajustement, comme dans cet exemple, nous pouvons dire que c’est un exemple de forte corrélation. Si, cependant, les points sont assez éloignés de la droite de meilleur ajustement, comme dans cet exemple, alors nous disons qu’il y a une faible corrélation. Bien sûr, finalement, cette faible corrélation ne correspond à aucune corrélation, car les points s’éloignent les uns des autres. En gardant ça à l’esprit, déterminons le degré de la corrélation dans notre prochain exemple.
Indiquez lequel des nuages de dispersion représente la plus forte corrélation positive entre deux variables.
Puis il y a deux diagrammes parmi lesquels il faut choisir. Rappelez-vous que lorsque nous examinons le degré d’une corrélation, nous recherchons comment les points sont porches par rapport à la droite de meilleur ajustement. Plus les points sont proches, plus la corrélation est forte. Il est donc logique de commencer par tracer la droite de meilleur ajustement qui correspond le mieux à nos deux diagrammes. La droite de meilleur ajustement sur la figure un pourrait ressembler un peu à ceci. Les points suivent approximativement une ligne droite, il y a donc une corrélation linéaire ici. Plus précisément, plus les variables 𝑥 augmentent, plus 𝑦 augmente. Donc, nous pouvons dire que 𝑥 et 𝑦 sont corrélés linéairement positivement.
Sur la figure deux, il semble que notre droite de meilleur ajustement est assez similaire. Mais nous remarquons que tous les points sont un peu plus éloignés de la droite elle-même. Cela signifie que sur la figure deux, la corrélation est moins forte. On pourrait dire qu’elle est faible. Et donc la réponse est le diagramme un. Le nuage de dispersion montre des données bivariées avec une corrélation plus forte
Nous avons maintenant examiné comment deux variables différentes peuvent être liées et ce que cela signifie pour elles d’avoir une relation linéaire ou non linéaire. Nous avons examiné comment décrire la relation entre les variables en fonction de corrélation positive, négative ou nulle. Et nous avons examiné à quel point les variables corrélées sont basées sur leur proximité avec une droite de meilleur ajustement. Avec tous ces éléments, récapitulons les points clés de cette leçon.
Dans cette vidéo, nous avons appris que si deux variables suivent une tendance, elles sont corrélées. Si nous modélisons ces points sur un nuage de dispersion et qu’ils semblent suivre approximativement une ligne droite, alors il existe une corrélation linéaire. Ensuite, si la droite de meilleur ajustement construite semble incliner vers le haut, en d’autres termes, sa pente est positive, alors elles ont une corrélation positive. Et si cette droite de meilleur ajustement descend vers le bas, si elle a une pente négative, alors ces variables sont dites négativement corrélées. Maintenant, si aucune de ces affirmations n’est vraie, en d’autres termes, si une droite de meilleur ajustement ne peut pas être construite, alors nous avons dit qu’il n’y avait pas de corrélation. Enfin, nous avons vu que nous pouvons déterminer le degré de la corrélation en considérant la proximité de tous les points de la droite de meilleur ajustement.