Dans cette fiche explicative, nous allons apprendre comment déterminer et utiliser l'équation de la droite des moindres carrés.
Le terme « régression » a été utilisé pour la première fois par Sir Francis Galton, statisticien de l’ère victorienne anglaise, en référence aux tailles des enfants et de leurs parents. Les parents de grande taille avaient tendance à avoir des enfants plus petits qu’eux et inversement pour les parents de petite taille. Il a appelé cet effet « régression vers la médiocrité » : les tailles régressaient vers la moyenne. Depuis ses découvertes, l’analyse de régression a été utilisée pour identifier et analyser les relations entre les variables. En particulier, la méthode des moindres carrés nous permet de déterminer la droite qui s’ajuste le mieux pour un ensemble de données à deux variables.
Supposons que nous ayons collecté mesures pour deux variables quantitatives, et , pour former un ensemble de données à deux variables. C’est-à-dire que nous avons paires de données, , pour . Supposons aussi que le nuage de points et le coefficient de corrélation de nos données indiquent que les variables et sont liés linéairement. En d’autres termes, à mesure que l’un augmente, l’autre augmente linéairement ou décroît linéairement par rapport au premier.
Notre prochaine étape dans l’analyse de telles données est d’essayer de modéliser cette relation avec une droite qui s’ajuste au mieux. Cela signifie que nous cherchons l’équation de la droite qui définit le chemin de données passant le plus près possible de chacun des points de données. On pourrait essayer de construire cette droite de manière visuelle ; cependant, il existe une technique qui peut nous permettre de calculer son équation exacte.
Rappelons qu’en général, l’équation d’une droite est où est l’ordonnée à l’origine et est le coefficient directeur de la droite. Il est peu probable qu’un ensemble de données à deux variables se situe exactement sur une droite, alors pour trouver l’équation de la droite qui correspond le mieux à nos données, nous trouvons la droite avec laquelle la distance moyenne globale de tous nos points de données est minimisée. Cette distance , pour chaque point , est appelée erreur ou résidu. C’est la différence entre la vraie valeur de pour un point de données et la valeur prédite , sur la droite, pour une même valeur .
La droite de régression des moindres carrés, , minimise la somme des carrés des différences des points par rapport à la droite, d’où l’expression « moindres carrés ». Nous n’étudierons pas la manière d’obtenir les formules relatives à la droite qui s’ajuste le mieux ici. Cependant, nous montrerons comment utiliser ces formules pour trouver les coefficients et de la droite.
Définition : Droite de régression des moindres carrés
Si est la droite de régression des moindres carrés pour un ensemble de données à deux variables avec des variables et , alors où
On peut aussi écrire le coefficient directeur comme , où est le coefficient de corrélation et et sont les écarts-types respectifs de et , ou, en remplaçant les expressions par et dans la formule du coefficient directeur
Nous notons de plus que et sont souvent écrits comme qui sont équivalentes aux expressions données ci-dessus. Sous cette forme, nous pouvons voir que est la somme du produit des différences entre chaque et la moyenne de et chaque et la moyenne de et est la somme des carrés des différences entre chaque et la moyenne de .
En pratique, on calcule le coefficient directeur, , en premier lieu, comme est nécessaire pour calculer . Regardons un exemple sur la manière de déterminer la droite de régression des moindres carrés à partir d’un tableau de données à deux variables.
Exemple 1: Calcul de la droite de régression des moindres carrés à partir d’un tableau de données récapitulant les sommes des valeurs observées
Utilisez les informations du tableau pour déterminer l’équation de la droite de régression des moindres carrés de en . Écrivez l’équation sous la forme suivante , où et sont précisés au millième près.
1 | 22 | 18 | 396 | 484 | 324 |
2 | 22 | 19 | 418 | 484 | 361 |
3 | 23 | 20 | 460 | 529 | 400 |
4 | 26 | 18 | 468 | 676 | 324 |
5 | 31 | 23 | 713 | 961 | 529 |
6 | 32 | 24 | 768 | 1 024 | 576 |
7 | 34 | 22 | 748 | 1 156 | 484 |
8 | 37 | 25 | 925 | 1 369 | 625 |
9 | 41 | 29 | 1 189 | 1 681 | 841 |
10 | 42 | 27 | 1 134 | 1 764 | 729 |
Somme | 310 | 225 | 7 219 | 10 128 | 5 193 |
Réponse
Pour déterminer la droite de régression des moindres carrés , on doit trouver le coefficient directeur, et l’ordonnée à l’origine, . Pour ce faire, on utilise les formules où est la moyenne des et est la moyenne des .
Le nombre de paires de données dans notre ensemble de données est et dans la dernière ligne du tableau, on nous donne les sommes dont nous avons besoin. Ce sont , , et . Comme nous aurons besoin du coefficient directeur, , pour calculer , utilisons d’abord les valeurs données pour trouver :
Pour calculer la valeur de l’ordonnée à l’origine, , on a besoin des moyennes des valeurs de et des valeurs de . Ce sont
Nous pouvons maintenant utiliser ces valeurs, sous forme de fraction pour plus de précision, ainsi que la valeur du coefficient directeur , pour trouver :
Par conséquent, en plaçant le terme en en premier, la droite de régression des moindres carrés a pour équation .
Dans nos calculs, nous avons utilisé des expressions telles que , et , appelées indicateurs statistiques.
Définition : Indicateurs statistiques
Les indicateurs statistiques sont des données statistiques que nous calculons à partir de l’observation d’un échantillon de données, qui résument les données d’une manière qui nous permet de les communiquer et donc d’interpréter autant d’informations que possible.
Dans notre prochain exemple, nous trouverons la droite de régression des moindres carrés directement à partir d’indicateurs statistiques.
Exemple 2: Calcul d’un coefficient de régression pour un modèle de régression des moindres carrés à partir d’indicateurs statistiques
Pour un certain ensemble de données, , , , , et . Calculez la valeur du coefficient de régression dans le modèle de régression des moindres carrés . Donnez votre réponse au millième près.
Réponse
Pour calculer le coefficient de régression à partir des indicateurs statistiques donnés, nous pouvons utiliser la formule
En substituant dans nos valeurs , , , et , nous avons
Ainsi, à trois décimales près, le coefficient de régression est .
Notre prochain exemple montre comment trouver l’équation de la droite de régression des moindres carrés pour un certain ensemble de données à deux variables.
Exemple 3: Calculer l’équation de la droite de régression des moindres carrés
Le nuage de points montre un ensemble de données pour lesquelles un modèle de régression linéaire semble approprié.
Les données utilisées pour produire ce nuage de points sont rangées dans le tableau ci-dessous.
0, 5 0, 5 | 1 | 1, 5 | 2 | 2, 5 | 3 | 3, 5 | 4 | |
9, 25 | 7, 6 | 8, 25 | 6, 5 | 5, 45 | 4, 5 | 1, 75 | 1, 8 |
Calculez l’équation de la droite de régression des moindres carrés de en , en arrondissant les coefficients de régression au millième près.
Réponse
L’équation de la droite de régression des moindres carrés est , où le coefficient directeur ou de régression est
L’ordonnée à l’origine est donnée par , avec , la moyenne de et , la moyenne de . Nous avons huit couples de points de données ; par conséquent, . Pour trouver les deux coefficients, et , nous commençons par mettre nos données dans un tableau avec une colonne pour le produit et une colonne pour le carré , car nous aurons besoin de leurs sommes pour notre calcul. Ainsi, par exemple, dans la troisième colonne, la première entrée est et ainsi de suite pour chaque paire .
0,5 | 9,25 | 4,625 | 0,25 | |
1 | 7,6 | 7,600 | 1,00 | |
1,5 | 8,25 | 12,375 | 2,25 | |
2 | 6,5 | 13 000 | 4,00 | |
2,5 | 5,45 | 13,625 | 6,25 | |
3 | 4,5 | 13 500 | 9,00 | |
3,5 | 1,75 | 6,125 | 12,25 | |
4 | 1,8 | 7 200 | 16,00 | |
Somme |
Notre prochaine étape consiste à additionner chacune des colonnes pour que nous ayons les sommes dans la dernière ligne.
0, 5 | 9,25 | 4,625 | 0,25 | |
1 | 7,6 | 7,600 | 1,00 | |
1,5 | 8,25 | 12,375 | 2,25 | |
2 | 6,5 | 13 000 | 4,00 | |
2,5 | 5,45 | 13,625 | 6,25 | |
3 | 4,5 | 13 500 | 9,00 | |
3,5 | 1,75 | 6,125 | 12,25 | |
4 | 1,8 | 7 200 | 16,00 | |
Somme |
On peut maintenant utiliser ces sommes dans la formule pour calculer le coefficient directeur de la droite de régression :
Notez que, à partir du diagramme de dispersion, nous voyons que plus augmente, plus les valeurs de diminuent en général, ce qui est confirmé par le fait que le coefficient directeur, , est négatif. Pour déterminer la valeur de la constante , il faut d’abord calculer les moyennes et . En utilisant les sommes de notre tableau, ce sont
Par conséquent, en gardant ces valeurs sous forme fractionnaire exacte pour plus de précision, et en l’associant à notre valeur pour , qui, sous sa forme exacte, est égale à , notre ordonnée à l’origine est
L’équation de la droite de régression des moindres carrés de en pour ces données, au millième près, est donc .
Dans notre prochain exemple, nous appliquerons nos connaissances du calcul de la droite de régression des moindres carrés à une situation réelle. Cependant, si on considère des variables concrètes dans le contexte de la régression, si possible, on détermine d’abord laquelle de nos variables est la variable dépendante et laquelle est la variable indépendante. Celles-ci sont définies comme suit.
Définition : Variables dépendantes et indépendantes
Les variables indépendantes sont des variables que nous pouvons contrôler ou modifier et qui, d’après nous, ont un effet direct sur une variable dépendante. Les variables indépendantes sont aussi parfois appelées variables explicatives et sont souvent notées , ou , pour variables explicatives.
Les variables dépendantes sont des variables testées qui dépendent de variables indépendantes. Les variables dépendantes sont souvent appelées variables de réponse car elles répondent aux variations des variables explicatives et sont souvent notées .
Exemple 4: Déterminer l’équation d’une droite de régression dans un modèle de régression
En utilisant les informations du tableau, déterminez la droite de régression . Arrondissez et au millième.
Terre cultivée à Feddan | 126 | 13 | 104 | 180 | 38 | 161 | 14 | 99 | 55 | 177 |
---|---|---|---|---|---|---|---|---|---|---|
Production d’une récolte estivale en kilogrammes | 160 | 40 | 80 | 340 | 260 | 200 | 280 | 280 | 140 | 100 |
Réponse
Nous commençons par déterminer laquelle de nos variables est la variable indépendante et laquelle est la variable dépendante. Comme on peut s’attendre à ce que la quantité d’une culture d’été produite dépende de la superficie des terres sur lesquelles elle est cultivée, il est logique que la variable « production » soit la variable dépendante et la variable « terre » soit la variable indépendante .
Pour déterminer l’équation de la droite de régression des moindres carrés, , on doit trouver le coefficient directeur ou de régression et l’ordonnée à l’origine . Nous avons dix paires de données, soit dix mesures de la variable indépendante « terres cultivées à feddan » qui sont associés à dix mesures de la variable dépendante « production d’une culture d’été en kilogrammes », alors . On peut utiliser la formule suivante pour calculer :
Il faudra donc trouver les sommes , , et . Rangeons nos données dans un tableau avec des colonnes pour le produit et pour afin que nous puissions calculer plus facilement les sommes requises.
Terre cultivée (Feddan) | Culture d’été (kg ) | |||
---|---|---|---|---|
126 | 160 | 20 160 | 15 876 | |
13 | 40 | 520 | 169 | |
104 | 80 | 8 320 | 10 816 | |
180 | 340 | 61 200 | 32 400 | |
38 | 260 | 9 880 | 1 444 | |
161 | 200 m | 32 200 | 25 921 | |
14 | 280 | 3 920 | 196 | |
99 | 280 | 27 720 | 9 801 | |
55 | 140 | 7 700 | 3 025 | |
177 | 100 | 17 700 | 31 329 | |
Somme |
Les sommes, qui se trouvent dans la dernière ligne, ont été calculées pour chaque colonne et nous pouvons maintenant les utiliser dans la formule pour trouver :
L’ordonnée à l’origine est donnée par , où est la moyenne des valeurs et est la moyenne des valeurs . Ce sont
Pour calculer au millième près, nous devons substituer une valeur suffisamment précise à . Ici, on peut substituer la fraction exacte, ou une valeur décimale à au moins cinq décimales près. Par conséquent, en calculant , nous avons
Avec les valeurs de notre coefficient de régression et de l’ordonnée à l’origine au millième, la régression par la méthode des moindres carrés est .
Nous pouvons interpréter ceci comme suit : pour chaque unité supplémentaire de terres cultivées à feddan, on s’attend à ce que la production de la récolte estivale augmente d’environ 0,2 kg. On pourrait aussi interpréter la valeur de , car c’est l’ordonnée à l’origine. Cependant, nous devons faire attention à ce que notre interprétation ait du sens dans le contexte des données. Dans notre cas, avec , on pourrait conclure que, sans terres cultivées, c’est-à-dire, , on pourrait s’attendre à produire 168,582 kg de la récolte estivale, ce qui n’a pas de sens concrètement. On pourrait peut-être en déduire que nous commençons par récolter 168,582 kg l’été grâce à d’autres sources, mais nous ne le saurions pas à partir des données. Cela illustre la manière dont il faut être prudent lorsque l’on considère le comportement des variables en dehors de l’étendue des données fournies.
Une fois que nous avons un modèle de régression, qui, dans le cas des données linéaires est la droite de régression des moindres carrés, nous pouvons, avec précaution, utiliser notre modèle pour estimer les valeurs de la variable dépendante. Nous voyons comment cela fonctionne dans notre prochain exemple.
Exemple 5: Calculer une valeur estimée pour une variable en un point donné dans un modèle de régression
En utilisant les informations du tableau, estimez la valeur de quand . Donnez votre réponse à l’entier près.
23 | 9 | 24 | 15 | 7 | 12 | |
22 | 24 | 25 | 13 | 21 | 9 |
Réponse
On nous donne un ensemble de données à deux variables où nous avons six paires de valeurs pour chacune des deux variables et . Pour estimer une valeur pour une valeur donnée, en supposant que les données sont approximativement linéaires, nous devons d’abord trouver l’équation de la droite de régression, . Pour ce faire, on calcule d’abord le coefficient directeur , en utilisant la formule ci-dessous :
Cela nécessite les sommes , , et , et en mettant nos données dans un tableau avec des colonnes pour le produit et pour , nous pouvons facilement les calculer comme indiqué ci-dessous.
23 | 22 | 506 | 529 | |
9 | 24 | 216 | 81 | |
24 | 25 | 600 | 576 | |
15 | 13 | 195 | 225 | |
7 | 21 | 147 | 49 | |
12 | 9 | 108 | 144 | |
Somme |
En substituant les sommes nécessaires dans la formule de , cela donne
L’ordonnée à l’origine vérifie l’équation et nous utiliserons notre valeur de pour calculer cela. Cependant, nous devons d’abord trouver les moyennes des valeurs et des valeurs . Ce sont
Avec ces valeurs, nous avons alors
La droite de régression a donc pour équation . A présent, si nous substituons , on trouve
Ainsi, à l’entier le plus proche, lorsque , on estime .
Dans cet exemple, nous avons estimé une valeur de la variable dépendante pour une valeur de qui se situait dans notre intervalle de valeurs connues. C’est ce qu’on appelle l’interpolation et la définition suivante le précise.
Définition : Interpolation et extrapolation
Interpolation Estimation ou prédiction d’une valeur de la variable dépendante à partir de l’intervalle des valeurs connues de la variable indépendante.
Extrapolation Estimation ou prévision d’une valeur de la variable dépendante à partir de l’extérieur de l’intervalle des valeurs connues de la variable indépendante.
Le cas échéant, l’extrapolation doit être utilisée avec la plus grande prudence. Le comportement des variables peut changer en dehors de la plage de données connue, entraînant des erreurs. Par conséquent, l’extrapolation doit être évitée autant que possible.
Nous complétons cette fiche explicative en rappelant certains des points clés traités.
Points Clés
- La droite de régression des moindres carrés est un modèle linéaire pour des ensembles de données à deux variables consistant en points de données , où est la variable indépendante ou explicative et est la variable dépendante ou la réponse.
- La droite de régression des moindres carrés est la droite dont la somme des carrés des distances des points de données à partir de cette droite est minimale. L’équation de la droite est où avec , la moyenne de et , la moyenne de et où
- Le coefficient directeur, , peut aussi s’écrire , où est le coefficient de corrélation et et sont les écarts-types de et .
- On peut utiliser la droite de régression des moindres carrés pour estimer ou prévoir les valeurs de la variable dépendante par interpolation, c’est-à-dire en utilisant valeurs comprises dans l’intervalle connu. Une extrapolation, c’est-à-dire utiliser des valeurs en dehors de cette plage pour estimer ou prévoir n’est pas recommandée car les résultats peuvent être erronés.