Fiche explicative de la leçon : Corrélation Mathématiques

Dans cette fiche explicative, nous allons apprendre à travailler avec la corrélation linéaire et à faire la distinction entre différents types de corrélation.

Vous vous souvenez peut-être d’avoir appris à comparer deux séries statistiques en traçant des nuages de dispersion. Connues sous le nom de données bivariées, une série statistiques est appariée à une autre série statistiques et celles-ci peuvent être tracées sur un nuage de dispersion, avec les premières données étant tracées sur l’axe des 𝑥 et les deuxièmes données sur l’axe des 𝑦.

Définition : Données bivariées

Une série bivariée est la donnée d’une paire de séries statistiques.

Par exemple, nous pourrions mesurer la hauteur et la circonférence de la tête d’une personne et la représenter sur un nuage de dispersion comme indiqué ci-dessous.

En étudiant le nuage de dispersion, on peut voir une tendance se dégager. Dans le cas des hauteurs et des circonférences de la tête, lorsque la hauteur croit, la circonférence de la tête semble croitre également (mais ce n’est pas toujours le cas). Dans ce cas, nous disons qu’il y a une corrélation entre les deux séries statistiques, ce qui signifie qu’il existe une relation entre elles.

Définition : Corrélation

Deux séries statistiques (données bivariées) sont corrélées lorsqu’il y a une relation, ou une tendance, entre elles.

Il peut y avoir de différentes façons de décrire leur relation, en fonction de la nature de celle-ci.

Premièrement, si deux séries statistiques suivent une droite lorsqu’elles sont tracées sur un nuage de dispersion, alors il y a une corrélation linéaire entre ces séries statistiques. Si elles suivent un modèle différent, qui n’est pas une droite, alors on parle de corrélation non linéaire. Cependant, si les séries statistiques ne semblent pas du tout suivre une tendance particulière, alors elles ne sont pas corrélées.

Définition : Corrélation linéaire et non linéaire

  • Deux séries statistiques sont corrélées linéairement si elles suivent une droite.
  • Deux séries statistiques sont corrélées de manière non linéaire si elles suivent une tendance non linéaire telle qu’une tendance exponentielle ou logarithmique par exemple.
  • Deux séries statistiques ne sont pas corrélées si elles ne semblent pas suivre une tendance.

On peut plus aisément voir les différents types de corrélation, linéaire ou non linéaire, en essayant de tracer une droite qui donne la meilleure approximation du nuage de dispersion.

En comparant la droite qui donne la meilleure approximation du nuage de dispersion sur la première figure, on peut constater qu’ils semblent suivre une tendance linéaire, et il y a donc une corrélation linéaire entre ces séries statistiques. En comparant la droite qui donne la meilleure approximation du nuage de dispersion sur la deuxième figure, nous voyons clairement que les points ne suivent pas une tendance linéaire, mais semblent suivre une tendance exponentielle et il y a donc une corrélation non linéaire entres ces séries statistiques. Pour le troisième nuage de dispersion, il n’y a pas de tendance nette (que celle-ci soit linéaire ou non linéaire) qui puisse être vue en tentant de tracer la droite qui donne la meilleure approximation. Comme les points sont dispersés et ne suivent pas la droite qui donne la meilleure approximation, ni aucune autre tendance, alors ils ne sont pas corrélés.

Nous utiliserons la méthode consistant à comparer une droite qui donne la meilleure approximation d’un nuage de dispersion afin de déterminer si les données sont corrélées linéairement dans l’exemple suivant.

Exemple 1: Déterminer si les données suivent une tendance linéaire

Peut-on utiliser la droite qui donne la meilleure approximation pour décrire la tendance que suivent les données ? Pourquoi ?

Réponse

Comme on peut le voir sur le nuage de dispersion, les données ne suivent pas une tendance linéaire car les points ne suivent pas la droite qui donne la meilleure approximation. Comme les points semblent suivre une tendance (et, dans ce cas, exponentielle), alors il y a une corrélation non linéaire entre ces séries statistiques.

Deuxièmement, la manière dont une série statistique varie par rapport à l’autre détermine si leur corrélation est positive ou négative. Si une série statistique croit à mesure que l’autre augmente, alors les données sont dites avoir une corrélation positive ou directe. Cependant, si une série statistique croit à mesure que l’autre diminue, alors les données ont une corrélation négative ou inverse.

Définition : Corrélation positive et négative

  • Deux séries statistiques sont corrélées positivement (ou directement) si l’une croit à mesure que l’autre augmente.
  • Deux séries statistiques sont corrélées négativement (ou inversement) si l’une croit à mesure que l’autre diminue.

Les différents types de corrélations positive et négative peuvent être plus facilement observés à partir d’une droite qui donne la meilleure approximation, car sa pente est positive dans le cas d’une corrélation positive, et négative dans le cas d’une corrélation négative.

Nous examinerons comment déterminer si les données sont corrélées positivement ou négativement (ou non corrélées) en utilisant une droite qui donne la meilleure approximation sur un nuage de dispersion dans l’exemple suivant.

Exemple 2: Déterminer le type de corrélation des données à partir d’un nuage de dispersion

Quel type de corrélation existe-t-il entre les deux séries statistiques illustrées par le nuage de dispersion ci-dessous ?

Réponse

Afin de déterminer quel type de corrélation existe entre ces séries statistiques, on doit observer comment celles-ci varient en fonction l’une de l’autre. Pour nous aider à déterminer cela, on peut tracer la droite qui donne la meilleure approximation.

Lorsque les coordonnés en 𝑥 des points augmentent, il en va de même pour les coordonnées en 𝑦 de ces points; il y a donc une corrélation positive entre ces séries statistiques. Nous pouvons constater ce fait sur la droite qui donne la meilleure approximation puisque celle-ci est de pente positive (elle est croissante).

Parfois, on ne dispose pas d’un nuage de dispersion mais d’une description des variables des séries statistiques. Comme on le verra dans l’exemple suivant, nous devons utiliser notre compréhension de la relation entre les variables pour déterminer si elles sont corrélées positivement ou négativement (ou non corrélées).

Exemple 3: Déterminer le type de corrélation de deux séries statistiques à partir de leurs descriptions

Supposons que la variable 𝑥 est le nombre d’ heures travaillées, et que la variable 𝑦 est le salaire gagné. On suspecte que, si on travaille plus d’ heures, le salaire sera plus élevé. S’agit-il là d’une corrélation positive, négative, ou bien les variables ne sont-elles pas corrélées ?

Réponse

Ici, il est important d’étudier comment les variables varient. On voit que le salaire augment avec le nombre d’ heures travaillées. Cela signifie qu’il y a une corrélation positive entre ces variables. Il peut être utile de dessiner un graphique pour montrer à quoi cela pourrait ressembler.

Cette droite étant croissante, elle a une pente positive et montre donc qu’il y a une corrélation positive entre ces variables.

Troisièmement, nous pouvons déterminer l’intensité de la corrélation linéaire de deux séries statistiques en regardant à quel point elles sont alignées le long d’une droite ou de la droite qui donne la meilleure approximation. Si tous les points sont très proches de la droite qui donne la meilleure approximation, alors il y a une forte corrélation entre ces données. Si de nombreux points sont plus éloignés de la droite qui donne la meilleure approximation, alors il y a une faible corrélation entre ces données. S’ils ne suivent pas du tout la droite qui donne la meilleure approximation, alors ces séries statistiques ne sont pas corrélées.

On peut voir plus clairement à quel point des séries statistiques sont corrélées en comparant les jeux de données sur un nuage de point à la droite qui donne la meilleure approximation. Cela est illustré par le nuage de dispersion ci-dessous.

Nous pouvons utiliser des nuages de dispersion et des droites qui donnent la meilleure approximation pour déterminer à quel point des séries statistiques sont corrélées, comme nous allons le voir dans le prochain exemple.

Exemple 4: Déterminer l’intensité de la corrélation entre deux séries statistiques à partir de leur distance à la droite qui donne la meilleure approximation

Indiquez lequel des nuages de dispersion ci-dessous illustre le jeu de données bivariées avec la corrélation la plus forte.

Réponse

Afin de déterminer quel diagramme montre les données avec la corrélation la plus forte, nous pouvons tracer une droite qui donne la meilleure approximation.

Sur la figure 1, les points sont tous proches de la droite qui donne la meilleure approximation, ce qui indique qu’il existe une forte corrélation entre les ensembles de données. Sur la figure 2, certains points sont proches de la droite qui donne la meilleure approximation, mais d’autres en sont plus éloignés, ce qui indique une corrélation plus faible. Donc, le diagramme 1 montre une corrélation plus forte.

Dans l’exemple suivant, nous allons utiliser la description des données d’un nuage de dispersion pour déterminer à quel type de corrélation nous avons à faire.

Exemple 5: Déterminer l’intensité de la corrélation de données bivariées à partir de sa distance à la droite qui donne la meilleure approximation

Que peut-on dire des données si tous les points sont alignés sur la droite qui donne la meilleure approximation ?

Réponse

Plus les points sont proches de la droite qui donne la meilleure approximation, plus la corrélation entre les variables est forte. Donc, si tous les points des données appartiennent à la droite qui donne la meilleure approximation, alors il doit y avoir une très forte corrélation.

Dans cette fiche explicative, nous avons discuté de différents types de corrélation, dont la corrélation linéaire et non linéaire ainsi que de la corrélation positive et négative, et de l’intensité de la corrélation. Nous avons utilisé des droites qui donnent la meilleure approximation pour nous aider à déterminer le type de corrélation ainsi que l’intensité de la corrélation linéaire entre des données bivariées.

Points Clés

  • La corrélation décrit le lien entre deux variables.
  • On parle de corrélation linéaire lorsque les données bivariées suivent une tendance linéaire (la droite qui donne la meilleure approximation)
  • Une corrélation positive signifie que plus une variable augmente, plus l’autre variable augmente.
  • Une corrélation négative signifie qu’à mesure qu’une variable augmente, l’autre diminue.
  • Une forte corrélation signifie que les points du nuage de dispersion sont très proches de la droite qui donne la meilleure approximation.
  • Une corrélation faible signifie que les points du nuage de dispersion sont plus éloignés de la droite qui donne la meilleure approximation.
  • Il n’y a pas de corrélation lorsque les points du nuage de dispersion ne suivent pas la droite qui donne la meilleure approximation.

Nagwa utilise des cookies pour vous garantir la meilleure expérience sur notre site. En savoir plus sur notre Politique de Confidentialité.