Fiche explicative de la leçon: Droite de régression des moindres carrés | Nagwa Fiche explicative de la leçon: Droite de régression des moindres carrés | Nagwa

Fiche explicative de la leçon: Droite de régression des moindres carrés Mathématiques • Troisième année secondaire

Dans cette fiche explicative, nous allons apprendre comment déterminer et utiliser l'équation de la droite des moindres carrés.

Le terme « régression » a été utilisé pour la première fois par Sir Francis Galton, statisticien de l’ère victorienne anglaise, en référence aux tailles des enfants et de leurs parents. Les parents de grande taille avaient tendance à avoir des enfants plus petits qu’eux et inversement pour les parents de petite taille. Il a appelé cet effet « régression vers la médiocrité »:les tailles régressaient vers la moyenne. Depuis ses découvertes, l’analyse de régression a été utilisée pour identifier et analyser les relations entre les variables. En particulier, la méthode des moindres carrés nous permet de déterminer la droite qui s’ajuste le mieux pour un ensemble de données à deux variables.

Supposons que nous ayons collecté 𝑛 mesures pour deux variables quantitatives, 𝑋 et 𝑌, pour former un ensemble de données à deux variables. C’est-à-dire que nous avons 𝑛 paires de données, (𝑥;𝑦), pour 𝑖=1,,𝑛. Supposons aussi que le nuage de points et le coefficient de corrélation de nos données indiquent que les variables 𝑋 et 𝑌 sont liés linéairement. En d’autres termes, à mesure que l’un augmente, l’autre augmente linéairement ou décroît linéairement par rapport au premier.

Notre prochaine étape dans l’analyse de telles données est d’essayer de modéliser cette relation avec une droite qui s’ajuste au mieux. Cela signifie que nous cherchons l’équation de la droite qui définit le chemin de données passant le plus près possible de chacun des points de données. On pourrait essayer de construire cette droite de manière visuelle;cependant, il existe une technique qui peut nous permettre de calculer son équation exacte.

Rappelons qu’en général, l’équation d’une droite est 𝑦=𝑎+𝑏𝑥,𝑎 est l’ordonnée 𝑦 à l’origine et 𝑏 est le coefficient directeur de la droite. Il est peu probable qu’un ensemble de données à deux variables se situe exactement sur une droite, alors pour trouver l’équation de la droite qui correspond le mieux à nos données, nous trouvons la droite avec laquelle la distance moyenne globale de tous nos points de données est minimisée. Cette distance 𝑦̂𝑦, pour chaque point (𝑥;𝑦), est appelée erreur ou résidu. C’est la différence entre la vraie valeur de 𝑦 pour un point de données et la valeur prédite ̂𝑦, sur la droite, pour une même valeur 𝑥.

La droite de régression des moindres carrés, ̂𝑦=𝑎+𝑏𝑥, minimise la somme des carrés des différences des points par rapport à la droite, d’où l’expression « moindres carrés ». Nous n’étudierons pas la manière d’obtenir les formules relatives à la droite qui s’ajuste le mieux ici. Cependant, nous montrerons comment utiliser ces formules pour trouver les coefficients 𝑎 et 𝑏 de la droite.

Définition : Droite de régression des moindres carrés

Si ̂𝑦=𝑎+𝑏𝑥 est la droite de régression des moindres carrés pour un ensemble de données à deux variables avec des variables 𝑋 et 𝑌, alors lecoecientdirecteuret𝑏=𝑆𝑆𝑎=𝑦𝑏𝑥,𝑆=𝑥𝑦𝑥𝑦𝑛,𝑆=𝑥𝑥𝑛,𝑥=𝑥𝑛(𝑥),𝑦=𝑦𝑛(𝑦).moyennedemoyennede

On peut aussi écrire le coefficient directeur 𝑏 comme 𝑏=𝑟𝑠𝑠, 𝑟 est le coefficient de corrélation et 𝑠 et 𝑠 sont les écarts-types respectifs de 𝑥 et 𝑦, ou, en remplaçant les expressions par 𝑆 et 𝑆 dans la formule du coefficient directeur 𝑏=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥.

Nous notons de plus que 𝑆 et 𝑆 sont souvent écrits comme 𝑆=𝑥𝑥(𝑦𝑦),𝑆=𝑥𝑥, qui sont équivalentes aux expressions données ci-dessus. Sous cette forme, nous pouvons voir que 𝑆 est la somme du produit des différences entre chaque 𝑥 et la moyenne de 𝑥 et chaque 𝑦 et la moyenne de 𝑦 et 𝑆 est la somme des carrés des différences entre chaque 𝑥 et la moyenne de 𝑥.

En pratique, on calcule le coefficient directeur, 𝑏, en premier lieu, comme 𝑏 est nécessaire pour calculer 𝑎. Regardons un exemple sur la manière de déterminer la droite de régression des moindres carrés à partir d’un tableau de données à deux variables.

Exemple 1: Calcul de la droite de régression des moindres carrés à partir d’un tableau de données récapitulant les sommes des valeurs observées

Utilisez les informations du tableau pour déterminer l’équation de la droite de régression des moindres carrés de 𝑦 en 𝑥. Écrivez l’équation sous la forme suivante 𝑦=𝑎𝑥+𝑏, 𝑎 et 𝑏 sont précisés au millième près.

𝑥𝑦𝑥𝑦𝑥𝑦
12218396484324
22219418484361
32320460529400
42618468676324
53123713961529
632247681‎ ‎024576
734227481‎ ‎156484
837259251‎ ‎369625
941291‎ ‎1891‎ ‎681841
1042271‎ ‎1341‎ ‎764729
Somme3102257‎ ‎21910‎ ‎1285‎ ‎193

Réponse

Pour déterminer la droite de régression des moindres carrés 𝑦=𝑎+𝑏𝑥, on doit trouver le coefficient directeur, 𝑏 et l’ordonnée 𝑦 à l’origine, 𝑎. Pour ce faire, on utilise les formules 𝑏=𝑆𝑆=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑎=𝑦𝑏𝑥,et𝑥=𝑥𝑛 est la moyenne des 𝑥 et 𝑦=𝑦𝑛 est la moyenne des 𝑦.

Le nombre de paires de données dans notre ensemble de données est 𝑛=10 et dans la dernière ligne du tableau, on nous donne les sommes dont nous avons besoin. Ce sont 𝑥𝑦=7219, 𝑥=310, 𝑦=225 et 𝑥=10128. Comme nous aurons besoin du coefficient directeur, 𝑏, pour calculer 𝑎, utilisons d’abord les valeurs données pour trouver 𝑏:𝑏=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥=10×7219310×22510×10128(310)=721906975010128096100=24405180=122259=0,4713.àd.p

Pour calculer la valeur de l’ordonnée 𝑦 à l’origine, 𝑎, on a besoin des moyennes des valeurs de 𝑥 et des valeurs de 𝑦. Ce sont 𝑥=𝑥𝑛=31010=31,𝑦=𝑦𝑛=22510=22,5.

Nous pouvons maintenant utiliser ces valeurs, sous forme de fraction pour plus de précision, ainsi que la valeur du coefficient directeur 𝑏=122259, pour trouver 𝑎:𝑎=𝑦𝑏𝑥=22510122259×31010=7,898.aumillième

Par conséquent, en plaçant le terme en 𝑥 en premier, la droite de régression des moindres carrés a pour équation 𝑦=0,471𝑥+7,898.

Dans nos calculs, nous avons utilisé des expressions telles que 𝑥, 𝑦 et 𝑥𝑦, appelées indicateurs statistiques.

Définition : Indicateurs statistiques

Les indicateurs statistiques sont des données statistiques que nous calculons à partir de l’observation d’un échantillon de données, qui résument les données d’une manière qui nous permet de les communiquer et donc d’interpréter autant d’informations que possible.

Dans notre prochain exemple, nous trouverons la droite de régression des moindres carrés directement à partir d’indicateurs statistiques.

Exemple 2: Calcul d’un coefficient de régression pour un modèle de régression des moindres carrés à partir d’indicateurs statistiques

Pour un certain ensemble de données, 𝑥=47, 𝑦=45,75, 𝑥=329, 𝑦=389,3125, 𝑥𝑦=310,25 et 𝑛=8. Calculez la valeur du coefficient de régression 𝑏 dans le modèle de régression des moindres carrés 𝑦=𝑎+𝑏𝑥. Donnez votre réponse au millième près.

Réponse

Pour calculer le coefficient de régression 𝑏 à partir des indicateurs statistiques donnés, nous pouvons utiliser la formule 𝑏=𝑆𝑆=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥.

En substituant dans nos valeurs 𝑥, 𝑦, 𝑥, 𝑥𝑦=310,25 et 𝑛=8, nous avons 𝑏=8×310,2547×45,758×329(47)=24822150,2526322209=331,754230,78428.

Ainsi, à trois décimales près, le coefficient de régression est 𝑏=0,784.

Notre prochain exemple montre comment trouver l’équation de la droite de régression des moindres carrés pour un certain ensemble de données à deux variables.

Exemple 3: Calculer l’équation de la droite de régression des moindres carrés

Le nuage de points montre un ensemble de données pour lesquelles un modèle de régression linéaire semble approprié.

Les données utilisées pour produire ce nuage de points sont rangées dans le tableau ci-dessous.

𝑥0, 5 0, 511, 522, 533, 54
𝑦9, 257, 68, 256, 55, 454, 51, 751, 8

Calculez l’équation de la droite de régression des moindres carrés de 𝑦 en 𝑥, en arrondissant les coefficients de régression au millième près.

Réponse

L’équation de la droite de régression des moindres carrés est ̂𝑦=𝑎+𝑏𝑥, où le coefficient directeur ou de régression est 𝑏=𝑆𝑆=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥.

L’ordonnée 𝑦 à l’origine est donnée par 𝑎=𝑦𝑏𝑥, avec 𝑥=𝑥𝑛, la moyenne de 𝑥 et 𝑦=𝑦𝑛, la moyenne de 𝑦. Nous avons huit couples de points de données (𝑥;𝑦);par conséquent, 𝑛=8. Pour trouver les deux coefficients, 𝑎 et 𝑏, nous commençons par mettre nos données dans un tableau avec une colonne pour le produit 𝑥𝑦 et une colonne pour le carré 𝑥, car nous aurons besoin de leurs sommes pour notre calcul. Ainsi, par exemple, dans la troisième colonne, la première entrée est 0,5×9,25=4,625 et ainsi de suite pour chaque paire (𝑥;𝑦).

𝑥𝑦𝑥𝑦𝑥
0,59,254,6250,25
17,67,6001,00
1,58,2512,3752,25
26,513 0004,00
2,55,4513,6256,25
34,513 5009,00
3,51,756,12512,25
41,87 20016,00
Somme

Notre prochaine étape consiste à additionner chacune des colonnes pour que nous ayons les sommes dans la dernière ligne.

𝑥𝑦𝑥𝑦𝑥
0, 59,254,6250,25
17,67,6001,00
1,58,2512,3752,25
26,513 0004,00
2,55,4513,6256,25
34,513 5009,00
3,51,756,12512,25
41,87 20016,00
Somme𝑥=18,00𝑦=45,10𝑥𝑦=78,05𝑥=51,00

On peut maintenant utiliser ces sommes dans la formule pour calculer le coefficient directeur 𝑏 de la droite de régression:𝑏=8×78,0518,0×45,18×51,0(18,0)=624,4811,8408324=187,484=937420=2,231.aumillièmeprès

Notez que, à partir du diagramme de dispersion, nous voyons que plus 𝑥 augmente, plus les valeurs de 𝑦 diminuent en général, ce qui est confirmé par le fait que le coefficient directeur, 𝑏, est négatif. Pour déterminer la valeur de la constante 𝑎=𝑦𝑏𝑥, il faut d’abord calculer les moyennes 𝑥 et 𝑦. En utilisant les sommes de notre tableau, ce sont 𝑥=𝑥𝑛=188=2,25,𝑦=𝑦𝑛=45,18=45180=5,6375.

Par conséquent, en gardant ces valeurs sous forme fractionnaire exacte pour plus de précision, et en l’associant à notre valeur pour 𝑏, qui, sous sa forme exacte, est égale à 937420, notre ordonnée 𝑦 à l’origine est𝑎=45180937420188=10,657.aumillièmeprès

L’équation de la droite de régression des moindres carrés de 𝑦 en 𝑥 pour ces données, au millième près, est donc ̂𝑦=10,6572,231𝑥.

Dans notre prochain exemple, nous appliquerons nos connaissances du calcul de la droite de régression des moindres carrés à une situation réelle. Cependant, si on considère des variables concrètes dans le contexte de la régression, si possible, on détermine d’abord laquelle de nos variables est la variable dépendante et laquelle est la variable indépendante. Celles-ci sont définies comme suit.

Définition : Variables dépendantes et indépendantes

Les variables indépendantes sont des variables que nous pouvons contrôler ou modifier et qui, d’après nous, ont un effet direct sur une variable dépendante. Les variables indépendantes sont aussi parfois appelées variables explicatives et sont souvent notées 𝑥, ou 𝑥𝑖=1,,𝑛, pour 𝑛 variables explicatives.

Les variables dépendantes sont des variables testées qui dépendent de variables indépendantes. Les variables dépendantes sont souvent appelées variables de réponse car elles répondent aux variations des variables explicatives et sont souvent notées 𝑦.

Exemple 4: Déterminer l’équation d’une droite de régression dans un modèle de régression

En utilisant les informations du tableau, déterminez la droite de régression ̂𝑦=𝑎+𝑏𝑥. Arrondissez 𝑎 et 𝑏 au millième.

Terre cultivée à Feddan126 13 104 180 38 161 14 99 55 177
Production d’une récolte estivale en kilogrammes 160 40 80 340 260 200 280 280 140 100

Réponse

Nous commençons par déterminer laquelle de nos variables est la variable indépendante et laquelle est la variable dépendante. Comme on peut s’attendre à ce que la quantité d’une culture d’été produite dépende de la superficie des terres sur lesquelles elle est cultivée, il est logique que la variable « production » soit la variable dépendante (𝑦) et la variable « terre » soit la variable indépendante (𝑥).

Pour déterminer l’équation de la droite de régression des moindres carrés, ̂𝑦=𝑎+𝑏𝑥, on doit trouver le coefficient directeur ou de régression 𝑏 et l’ordonnée 𝑦 à l’origine 𝑎. Nous avons dix paires de données, soit dix mesures de la variable indépendante « terres cultivées à feddan » qui sont associés à dix mesures de la variable dépendante « production d’une culture d’été en kilogrammes », alors 𝑛=10. On peut utiliser la formule suivante pour calculer 𝑏:𝑏=𝑆𝑆=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥.

Il faudra donc trouver les sommes 𝑥𝑦, 𝑥, 𝑦 et 𝑥. Rangeons nos données dans un tableau avec des colonnes pour le produit 𝑥𝑦 et pour 𝑥 afin que nous puissions calculer plus facilement les sommes requises.

Terre cultivée (Feddan) 𝑥Culture d’été (kg ) 𝑦𝑥𝑦𝑥
12616020‎ ‎16015‎ ‎876
1340520169
104808‎ ‎32010‎ ‎816
18034061‎ ‎20032‎ ‎400
382609‎ ‎8801‎ ‎444
161200 m32‎ ‎20025‎ ‎921
142803‎ ‎920196
9928027‎ ‎7209‎ ‎801
551407‎ ‎7003‎ ‎025
17710017‎ ‎70031‎ ‎329
Somme𝑥=967𝑦=1880𝑥𝑦=189320𝑥=130977

Les sommes, qui se trouvent dans la dernière ligne, ont été calculées pour chaque colonne et nous pouvons maintenant les utiliser dans la formule pour trouver 𝑏:𝑏=10×189320967×188010×130977(967)=189320018179601309770935089=752403746810,20081=0,2013.àd.p

L’ordonnée 𝑦 à l’origine est donnée par 𝑎=𝑦𝑏𝑥, 𝑥 est la moyenne des valeurs 𝑥 et 𝑦 est la moyenne des valeurs 𝑦. Ce sont 𝑥=𝑥𝑛=96710=96,7,𝑦=𝑦𝑛=188010=188.

Pour calculer 𝑎 au millième près, nous devons substituer une valeur suffisamment précise à 𝑏. Ici, on peut substituer la fraction exacte, ou une valeur décimale à au moins cinq décimales près. Par conséquent, en calculant 𝑎, nous avons 𝑎=18896,7×0,20081=18819,41840168,5816=168,5823.àd.p

Avec les valeurs de notre coefficient de régression et de l’ordonnée 𝑦 à l’origine au millième, la régression par la méthode des moindres carrés est ̂𝑦=0,201𝑥+168,582.

Nous pouvons interpréter ceci comme suit:pour chaque unité supplémentaire de terres cultivées à feddan, on s’attend à ce que la production de la récolte estivale augmente d’environ 0,2 kg. On pourrait aussi interpréter la valeur de 𝑎, car c’est l’ordonnée 𝑦 à l’origine. Cependant, nous devons faire attention à ce que notre interprétation ait du sens dans le contexte des données. Dans notre cas, avec 𝑎=168,582, on pourrait conclure que, sans terres cultivées, c’est-à-dire, 𝑥=0, on pourrait s’attendre à produire 168,582 kg de la récolte estivale, ce qui n’a pas de sens concrètement. On pourrait peut-être en déduire que nous commençons par récolter 168,582 kg l’été grâce à d’autres sources, mais nous ne le saurions pas à partir des données. Cela illustre la manière dont il faut être prudent lorsque l’on considère le comportement des variables en dehors de l’étendue des données fournies.

Une fois que nous avons un modèle de régression, qui, dans le cas des données linéaires est la droite de régression des moindres carrés, nous pouvons, avec précaution, utiliser notre modèle pour estimer les valeurs de la variable dépendante. Nous voyons comment cela fonctionne dans notre prochain exemple.

Exemple 5: Calculer une valeur estimée pour une variable en un point donné dans un modèle de régression

En utilisant les informations du tableau, estimez la valeur de 𝑦 quand 𝑥=13. Donnez votre réponse à l’entier près.

𝑥 23 9 24 15 7 12
𝑦 22 24 25 13 21 9

Réponse

On nous donne un ensemble de données à deux variables où nous avons six paires de valeurs pour chacune des deux variables 𝑥 et 𝑦. Pour estimer une valeur 𝑦 pour une valeur 𝑥 donnée, en supposant que les données sont approximativement linéaires, nous devons d’abord trouver l’équation de la droite de régression, ̂𝑦=𝑎+𝑏𝑥. Pour ce faire, on calcule d’abord le coefficient directeur 𝑏, en utilisant la formule ci-dessous:𝑏=𝑆𝑆=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥.

Cela nécessite les sommes 𝑥𝑦, 𝑥, 𝑦 et 𝑥, et en mettant nos données dans un tableau avec des colonnes pour le produit 𝑥𝑦 et pour 𝑥, nous pouvons facilement les calculer comme indiqué ci-dessous.

𝑥𝑦𝑥𝑦𝑥
2322506529
92421681
2425600576
1513 195225
72114749
12 9108144
Somme𝑥=90𝑦=114𝑥𝑦=1772𝑥=1604

En substituant les sommes nécessaires dans la formule de 𝑏, cela donne 𝑏=6×177290×1146×1604(90)=106321026096248100=37215240,2440945=0,244.aumillième

L’ordonnée 𝑦 à l’origine vérifie l’équation 𝑎=𝑦𝑏𝑥 et nous utiliserons notre valeur de 𝑏 pour calculer cela. Cependant, nous devons d’abord trouver les moyennes des valeurs 𝑥 et des valeurs 𝑦. Ce sont 𝑥=𝑥𝑛=906=15,𝑦=𝑦𝑛=1146=19.

Avec ces valeurs, nous avons alors 𝑎=190,2440945×1515,3386.

La droite de régression a donc pour équation ̂𝑦=15,3386+0,2440945𝑥. A présent, si nous substituons 𝑥=13, on trouve ̂𝑦=15,3386+0,2440945×1318,512.

Ainsi, à l’entier le plus proche, lorsque 𝑥=13, on estime 𝑦=19.

Dans cet exemple, nous avons estimé une valeur de la variable dépendante 𝑦 pour une valeur de 𝑥 qui se situait dans notre intervalle de valeurs connues. C’est ce qu’on appelle l’interpolation et la définition suivante le précise.

Définition : Interpolation et extrapolation

Interpolation Estimation ou prédiction d’une valeur de la variable dépendante à partir de l’intervalle des valeurs connues de la variable indépendante.

Extrapolation Estimation ou prévision d’une valeur de la variable dépendante à partir de l’extérieur de l’intervalle des valeurs connues de la variable indépendante.

Le cas échéant, l’extrapolation doit être utilisée avec la plus grande prudence. Le comportement des variables peut changer en dehors de la plage de données connue, entraînant des erreurs. Par conséquent, l’extrapolation doit être évitée autant que possible.

Nous complétons cette fiche explicative en rappelant certains des points clés traités.

Points Clés

  • La droite de régression des moindres carrés est un modèle linéaire pour des ensembles de données à deux variables consistant en 𝑛 points de données (𝑥;𝑦), 𝑥 est la variable indépendante ou explicative et 𝑦 est la variable dépendante ou la réponse.
  • La droite de régression des moindres carrés est la droite dont la somme des carrés des distances des points de données à partir de cette droite est minimale. L’équation de la droite est ̂𝑦=𝑎+𝑏𝑥,𝑏=𝑆𝑆=𝑛𝑥𝑦𝑥𝑦𝑛𝑥𝑥𝑎=𝑦𝑏𝑥,et avec 𝑥=𝑥𝑛, la moyenne de 𝑥 et 𝑦=𝑦𝑛, la moyenne de 𝑦 et où 𝑆=𝑥𝑦𝑥𝑦𝑛,𝑆=𝑥𝑥𝑛.
  • Le coefficient directeur, 𝑏, peut aussi s’écrire 𝑏=𝑟𝑠𝑠, 𝑟 est le coefficient de corrélation et 𝑠 et 𝑠 sont les écarts-types de 𝑥 et 𝑦.
  • On peut utiliser la droite de régression des moindres carrés pour estimer ou prévoir les valeurs de la variable dépendante par interpolation, c’est-à-dire en utilisant 𝑥 valeurs comprises dans l’intervalle connu. Une extrapolation, c’est-à-dire utiliser des valeurs en dehors de cette plage pour estimer ou prévoir n’est pas recommandée car les résultats peuvent être erronés.

Rejoindre Nagwa Classes

Assistez à des séances en direct sur Nagwa Classes pour stimuler votre apprentissage avec l’aide et les conseils d’un enseignant expert !

  • Séances interactives
  • Chat et messagerie électronique
  • Questions d’examen réalistes

Nagwa utilise des cookies pour vous garantir la meilleure expérience sur notre site web. Apprenez-en plus à propos de notre Politique de confidentialité