Video Transcript
Dans cette vidéo, nous allons apprendre à déterminer et à utiliser l'équation de la droite des moindres carrés. Le terme « régression » a été utilisé pour la première fois par un statisticien anglais, Sir Francis Galton, à l’époque victorienne, en référence aux tailles des enfants et de leurs parents. Il a constaté que les enfants de parents plus grands ont grandi jusqu’à être légèrement plus petits que leurs parents, alors que les enfants de parents plus petits ont grandi jusqu’à être plus grands que leurs parents. Il a appelé cet effet « régression vers la médiocrité » ; c’est-à-dire que les hauteurs avaient tendance, ou ont régressé, vers la moyenne.
Nous utilisons maintenant l’analyse de régression pour identifier et analyser les relations entre les variables. La méthode de régression des moindres carrés nous permet de déterminer la droite de meilleur ajustement pour un ensemble de données à deux variables. Dans cette vidéo, nous allons apprendre à trouver la régression de la droite des moindres carrés en utilisant des formules pour les coefficients dans l’équation de la droite. Nous rappelons que les données bivariées sont des données recueillies sur deux variables quantitatives, c’est-à-dire numériques, où les observations sont appariées pour chaque élément. Disons, par exemple, que 𝑥 est égal à la taille et 𝑦 est égal au poids. Si nous avons 𝑛 personnes dans notre échantillon, alors notre ensemble de données se composera de 𝑛 paires de mesures, chaque paire associée à une personne. Ainsi, par exemple, 𝑥 un serait la taille de la personne numéro un et 𝑦 un serait le poids de la personne numéro un.
Supposons maintenant que le diagramme de dispersion et le coefficient de corrélation indiquent que la taille et le poids des variables sont liés linéairement. Autrement dit, lorsqu’une variable augmente, l’autre augmente linéairement ou diminue linéairement. Notre prochaine étape sera d’essayer de modéliser cette relation avec la droite qui correspond le mieux à nos données. Autrement dit, nous voulons trouver la droite d’équation 𝑦 est égal à 𝑎 plus 𝑏𝑥, dont la distance de chacun de nos points de données est minimisée. La distance verticale entre le point 𝑥𝑖, 𝑦𝑖 et la droite est d’équation 𝑦𝑖 moins 𝑦 chapeau, où 𝑦 chapeau est la valeur 𝑦 sur la droite associée à ce qui est directement au-dessus de 𝑥𝑖. Cette distance pour chaque point s’appelle le résidu ou l’erreur. La droite de régression des moindres carrés, que nous voyons souvent avec un chapeau au-dessus du 𝑦, minimise la somme des erreurs au carré, d’où l’expression moindres carrés.
Alors, comment pouvons-nous trouver la droite de régression des moindres carrés ? Si 𝑦 chapeau est égal à 𝑎 plus 𝑏𝑥 est la droite de régression des moindres carrés pour un ensemble de données à deux variables avec les variables 𝑥 et 𝑦, alors le coefficient directeur 𝑏 est donné par 𝑆 𝑥𝑦 sur 𝑆 indice 𝑥𝑥, où 𝑆 indice 𝑥𝑦 est la somme des produits 𝑥𝑦 moins la somme des 𝑥 multipliée par la somme des 𝑦 divisée par 𝑛. 𝑆 indice 𝑥𝑥 est la somme des carrés des 𝑥 moins la somme des 𝑥 le tout au carré divisé par 𝑛. 𝑛 est le nombre de paires de données. Ainsi, étant donné un ensemble de données à deux variables, voici comment nous trouvons le coefficient directeur de notre droite, 𝑏. L’ordonnée à l’origine 𝑦, donc 𝑎, de notre droite est donnée par 𝑦 barre, qui est la moyenne des 𝑦, moins 𝑏 fois la moyenne des 𝑥, où nous rappelons que la moyenne de 𝑦 est la somme des valeurs 𝑦 divisée par 𝑛 et il en est de même pour 𝑥.
Nous pouvons voir à partir de nos formules que pour trouver 𝑎, l’ordonnée à l’origine 𝑦, nous devons d’abord trouver le coefficient directeur 𝑏, la moyenne des valeurs 𝑥 et la moyenne des valeurs 𝑦. Vous pouvez voir certaines de ces expressions écrites sous des formes légèrement différentes mais équivalentes. Faisons donc un rappel de certaines d’entre elles. Nous pouvons également écrire le coefficient directeur 𝑏 comme 𝑟 multiplié par 𝑆 indice 𝑦 sur 𝑆 indice 𝑥, où 𝑟 est le coefficient de corrélation de Pearson, 𝑆 indice 𝑦 est l’écart-type de 𝑦 et 𝑆 indice 𝑥 est l’écart-type de 𝑥. Si nous substituons nos expressions 𝑆 indice 𝑥𝑦 et 𝑆 indice 𝑥𝑥 dans notre formule pour 𝑏, nous trouvons l’expression pour 𝑏 comme indiqué. En fait, nous allons utiliser cette forme dans nos exemples. Vous pouvez également voir 𝑆 indice 𝑥𝑦 et 𝑆 indice 𝑥𝑥 écrits comme indiqué.
Alors maintenant que nous avons les formules pour nos coefficients 𝑎 et 𝑏, regardons un exemple où nous voyons comment trouver le coefficient directeur 𝑏 de la droite de régression à partir des statistiques sommaires.
Pour un ensemble de données, la somme des valeurs 𝑥 est 47, la somme des valeurs 𝑦 est 45,75, la somme des carrés des 𝑥 est 329, la somme des carrés des 𝑦 est 389,3125, la somme des produits 𝑥𝑦 est 310,25 et 𝑛 est égal à huit. Calculez la valeur du coefficient de régression 𝑏 dans le modèle de régression des moindres carrés 𝑦 égale 𝑎 plus 𝑏𝑥. Donnez votre réponse arrondie au millième près.
On nous donne les statistiques sommaires pour un ensemble de données. Nous avons la somme des valeurs 𝑥, la somme des valeurs 𝑦, la somme des carrés des 𝑥, la somme des carrés des 𝑦 et la somme du produit 𝑥𝑦. Nous savons que notre ensemble de données est constitué de 𝑛 égal huit paires de données à deux variables. On nous demande de trouver le coefficient 𝑏, c’est-à-dire le coefficient directeur de la droite, dans le modèle de régression des moindres carrés 𝑦 est égal à 𝑎 plus 𝑏𝑥. Nous utilisons la formule indiquée pour calculer 𝑏 et nous commençons par écrire nos statistiques sommaires.
Puisqu’on nous donne 𝑛, la somme du produit 𝑥𝑦, la somme des 𝑥, la somme des 𝑦 et la somme des carrés des 𝑥, la seule chose qui reste à trouver afin de pouvoir utiliser la formule est la somme des 𝑥 le tout au carré. Puisque la somme des 𝑥 est 47, la somme des 𝑥 le tout au carré est 47 au carré ; soit 2209. En substituant nos valeurs dans la formule, nous avons huit, qui est 𝑛, multiplié par 310,25, soit la somme du produit, moins la somme des 𝑥, qui est 47, multiplié par la somme des 𝑦, qui est 45,75, le tout sur huit multiplié par 329 moins 2209. En déterminant la valeur de nos produits, cela nous donne 2482 moins 2150,25 divisé par 2632 moins 2209. Notre numérateur est 331,75 et notre dénominateur 423, soit 0,78428. Cela fait cinq décimales.
Ainsi, au millième près, le coefficient de régression 𝑏 est égal à 0,784.
Bien qu’on ne nous demande pas réellement de trouver l’équation de la droite et 𝑎, l’ordonnée à l’origine 𝑦, qui est donnée par 𝑦 barre moins 𝑏 fois 𝑥 barre, où 𝑦 barre et 𝑥 barre sont la moyenne de 𝑦 et 𝑥 respectivement, on peut calculer 𝑎 assez rapidement et donc avoir l’équation de la droite. La moyenne des valeurs 𝑦 est la somme des valeurs 𝑦 divisée par 𝑛 ; soit 45,75 divisé par huit. Cela donne 5,71875. De même, la moyenne des 𝑥 est la somme des 𝑥 divisé par 𝑛. Cela donne 47 sur huit, soit 5,875. En substituant ces valeurs dans notre formule pour déterminer 𝑎, nous avons 𝑎 égale 5,71875, la moyenne des 𝑦, moins 0,78428, qui équivaut à 𝑏 à cinq décimales pour être précis, multiplié par 5,875, qui est la moyenne des 𝑥. Ainsi, 𝑎, l’ordonnée à l’origine 𝑦, est égal à 1,111 au millième près.
Enfin, l’équation de la droite de régression des moindres carrés pour l’ensemble de données est 𝑦 égale 1,111 plus 0,784𝑥, où nous avons calculé nos coefficients au millième près.
Dans cet exemple, on nous a donné les statistiques sommaires d’un ensemble de données. Dans notre prochain exemple, nous verrons comment trouver la droite de régression des moindres carrés à partir des données elles-mêmes.
Le diagramme de dispersion montre un ensemble de données pour lesquelles le modèle de régression linéaire semble approprié. Les données utilisées pour obtenir ce diagramme de dispersion sont indiquées dans le tableau ci-dessous. Calculez l’équation de la droite de régression des moindres carrés de 𝑦 sur 𝑥, en arrondissant les coefficients de régression au millième près.
L’équation de la régression de la droite des moindres carrés est 𝑦 chapeau égale 𝑎 plus 𝑏𝑥, où 𝑦 chapeau est la valeur prédite de 𝑦 pour chaque valeur de 𝑥, où 𝑎 est l’ordonnée à l’origine 𝑦 et 𝑏 est le coefficient directeur de la droite. Pour trouver l’équation de la droite, on trouve d’abord le coefficient directeur 𝑏, qui est donné dans la formule indiquée. Nous utilisons ensuite cette valeur pour 𝑏 afin de trouver 𝑎, l’ordonnée à l’origine 𝑦, qui est donnée par la moyenne de 𝑦 moins 𝑏 multipliée par la moyenne de 𝑥, où nous rappelons que la moyenne des valeurs 𝑦 est donnée par la somme des valeurs 𝑦 divisée par le nombre de paires de données 𝑛 et il en est de même pour la moyenne de 𝑥. En fait, dans notre cas, nous avons huit paires de données, de sorte que 𝑛 est égal à huit. Écrivons cela ici.
Maintenant, pour trouver les coefficients 𝑎 et 𝑏, nous allons avoir besoin des différentes sommes indiquées dans les formules. Pour calculer ces sommes, nous commençons par développer notre tableau pour inclure une ligne pour le produit 𝑥𝑦 et une autre pour les carrés des valeurs 𝑥. Dans la première cellule de notre nouvelle rangée pour le produit 𝑥𝑦, nous avons le produit de la première valeur 𝑥 0,5 avec la première valeur 𝑦 9,25, soit 4,625. Nous avons donc mis cela dans la première cellule de notre nouvelle rangée. Notre deuxième nouvelle entrée sera la deuxième valeur 𝑥, c’est-à-dire un, multipliée par la deuxième valeur 𝑦, donc 7,6. Cela donne 7,6. Nous écrivons cela dans la deuxième cellule de la nouvelle ligne de produits. Nous pouvons remplir les produits restants 𝑥𝑦, comme indiqué.
La première valeur d’entrée de notre deuxième nouvelle ligne est la première valeur 𝑥 au carré. Cela donne 0,5 au carré, soit 0,25. Ainsi, cela s’écrit dans la première cellule de notre deuxième nouvelle rangée. Notre deuxième valeur 𝑥 au carré est un au carré, qui donne un. Nous pouvons remplir le reste des valeurs 𝑥 au carré dans notre deuxième nouvelle ligne comme indiqué. Maintenant, rappelez-vous, nous essayons de trouver cette somme, donc notre prochaine étape consiste à additionner chacune des lignes. Si nous introduisons une nouvelle colonne pour nos sommes, alors, par exemple, la somme de nos valeurs 𝑥 est 18. Il s’agit de la première entrée dans notre nouvelle colonne. La somme de nos valeurs 𝑦 nous donne 45,1. La somme des produits est de 78,05. La somme des carrés des 𝑥 est de 51.
Maintenant, nous pouvons utiliser ces valeurs pour calculer le coefficient directeur 𝑏 de notre droite. Dans notre formule, nous avons donc huit, qui est 𝑛, multiplié par 78,05, la somme de nos produits, moins 18, qui est la somme des 𝑥, multipliée par 45,1, la somme des 𝑦, sur 𝑛, huit, fois 51, qui est la somme des carrés des 𝑥, moins 18 au carré, qui est la somme des 𝑥 le tout au carré. En déterminant les valeurs de nos produits nous donne 624,4 moins 811,8 le tout divisé par 408 moins 324. En tapant cela soigneusement dans notre calculatrice, nous trouvons que 𝑏 est approximativement égal à moins 2,23095. À trois décimales près, soit au millième près, cela donne moins 2,231.
Nous pouvons voir à partir des points de données de notre diagramme de dispersion que lorsque les valeurs 𝑥 des points de données augmentent, les valeurs 𝑦 des points de données diminuent. Cela est confirmé par le fait que notre coefficient 𝑏 est négatif, c’est-à-dire moins 2,231. Maintenant, en libérant un peu d’espace pour pouvoir calculer 𝑎, notre ordonnée à l’origine 𝑦, nous voyons dans notre formule que nous allons d’abord devoir calculer la moyenne des valeurs 𝑥 et la moyenne des valeurs 𝑦. La moyenne des valeurs 𝑦 est 45,1 divisée par huit. Soit 5,6375. La moyenne des valeurs 𝑥 est 18 divisée par huit, ce qui donne 2,25.
Alors, en libérant de l’espace à nouveau, nous pouvons utiliser cela pour calculer notre coefficient 𝑎. Nous avons 𝑎 est égal à 5,6375 moins moins 2,23095, qui est 𝑏 à cinq décimales près pour être précis, multiplié par 2,25. Cela équivaut à environ 10,65714, soit 10,657 à trois décimales près, c’est-à-dire au millième près. L’équation de la droite de régression des moindres carrés de 𝑦 sur 𝑥 pour ces données est alors 𝑦 chapeau est égal à 10,657 moins 2,231𝑥, le tout au millième près. Notez que nous écrivons 𝑦 avec un chapeau pour indiquer qu’il s’agit d’une valeur prédite pour 𝑦 obtenue à partir de la droite calculée avec les données indiquées. Souvent, vous verrez cela écrit simplement comme 𝑦 est égal à 𝑎 plus 𝑏𝑥.
Maintenant, jusqu’à présent, nous n’avons reçu aucune définition indiquant à quoi les variables 𝑥 et 𝑦 font référence. Mais lorsque nous considérons les variables de la vie courante dans le contexte de la régression, si possible, nous déterminons d’abord laquelle de nos variables est dépendante et laquelle est la variable indépendante. Rappelons que les variables indépendantes sont des variables que nous pouvons contrôler ou modifier. Nous pensons qu’elles ont un effet direct sur une variable dépendante. Un autre nom pour les variables indépendantes est les variables explicatives, elles sont souvent notées 𝑥. Les variables dépendantes, en revanche, sont des variables qui sont testées et dépendent d’une ou plusieurs variables indépendantes. Comme elles répondent aux changements de la ou des variables indépendantes, elles sont souvent appelées variables de réponse et elles sont souvent notées 𝑦.
Dans notre exemple suivant, nous allons calculer les coefficients de la droite de régression des moindres carrés pour les données de la vie courante. Ainsi, nous devrons commencer par déterminer laquelle des variables est dépendante et laquelle est la variable indépendante.
En utilisant les informations du tableau, déterminez la droite de régression d’équation 𝑦 chapeau égale 𝑎 plus 𝑏𝑥. Arrondissez 𝑎 et 𝑏 au millième près.
Puisque nous voulons trouver la droite de régression, nous commençons par déterminer laquelle des variables est dépendante et laquelle est la variable indépendante. Nous pouvons nous attendre à ce que la quantité de cultures d’été produites en kilogrammes dépende de la superficie des terres sur lesquelles elle est produite. Ainsi, nous spécifions que la production en kilogrammes est la variable dépendante 𝑦, alors que les terres cultivées mesurées en feddan sont la variable indépendante 𝑥. Notez qu’un feddan est une unité de superficie agraire légèrement supérieure à un acre.
Pour trouver la droite de régression, nous devons trouver le coefficient directeur 𝑏 et l’ordonnée à l’origine 𝑦, 𝑎. Pour trouver ces valeurs, nous utilisons les deux formules indiquées. Nous calculons d’abord le coefficient directeur 𝑏 puisque nous en aurons besoin pour calculer 𝑎, l’ordonnée à l’origine 𝑦. Nous voyons dans notre formule pour 𝑏 que nous allons devoir trouver différentes sommes, c’est-à-dire la somme des produits 𝑥𝑦, la somme des valeurs 𝑥, la somme des valeurs 𝑦, la somme des valeurs 𝑥 au carré et nous aurons également besoin de la somme des 𝑥 le tout au carré. Pour trouver la valeur de 𝑎, nous allons avoir besoin de la moyenne des valeurs 𝑦, c’est-à-dire la somme des valeurs 𝑦 divisée par 𝑛, qui est le nombre de paires de données et il en est de même pour la moyenne des valeurs 𝑥.
Dans notre ensemble de données, nous avons 10 paires de données, de sorte que 𝑛 est égal à 10. Nous en prenons note avant de commencer nos calculs. Notre prochaine étape consiste à trouver les sommes. Pour trouver la somme de nos produits 𝑥𝑦 et de nos valeurs 𝑥 au carré, nous introduisons deux nouvelles lignes dans notre tableau. Pour calculer les produits 𝑥𝑦, en prenant notre premier 𝑥 et notre premier 𝑦, nous avons 126 multiplié par 160. Soit 20160. Cela s’écrit dans la première cellule de notre première nouvelle ligne. Notre deuxième produit est notre deuxième valeur 𝑥 multipliée par notre deuxième valeur 𝑦. Cela donne 13 multiplié 40, soit 520. Cela s’écrit dans notre deuxième cellule de la première nouvelle rangée. Nous pouvons alors compléter cette rangée avec les produits indiqués.
Le premier élément de notre deuxième nouvelle ligne est la première valeur x au carré, c’est-à-dire 126 au carré, soit 15876. Cela s’écrit dans notre deuxième nouvelle rangée. Notre deuxième valeur 𝑥 au carré est 13 au carré, ce qui donne 169. Cela entre dans la deuxième cellule de notre deuxième nouvelle rangée. Nous continuons ainsi pour compléter la rangée. Notre prochaine étape consiste à trouver la somme pour chacune des ligne. Nous introduisons donc une nouvelle colonne. La somme des valeurs 𝑥 est 967. La somme des valeurs 𝑦 est 1880. La somme des produits 𝑥𝑦 est 189320. La somme des carrés des 𝑥 est 130977. Alors maintenant, avec toutes nos sommes, nous sommes en mesure de calculer 𝑏.
En substituant nos sommes dans la formule de 𝑏 avec 𝑛 égal à 10, nous avons 10 fois 189320, soit la somme des produits 𝑥𝑦, moins 967, qui est la somme des 𝑥, multipliée par 1880, qui représente la somme des 𝑦, le tout divisé par 10, soit 𝑛, multiplié par la somme des valeurs 𝑥 au carré, qui est 130977, moins 967 au carré. Il s’agit de la somme des 𝑥 le tout au carré. En déterminant la valeur de notre numérateur et de notre dénominateur, nous avons 75240 divisé par 374681. Cela équivaut à environ 0,20081. Au millième près alors, nous avons 𝑏 est égal à 0,201.
Maintenant, pour trouver l’ordonnée à l’origine 𝑦, notée 𝑎, nous devons trouver la moyenne des valeurs 𝑦 et 𝑥. La moyenne des 𝑦 est la somme de toutes les valeurs 𝑦 divisée par 𝑛. Cela donne 1880 divisé par 10, soit 188. De même, la moyenne des valeurs 𝑥 est la somme des 𝑥 divisée par 𝑛. Soit 967 divisé par 10, ce qui donne 96,7. Alors maintenant, nous pouvons utiliser ces valeurs avec notre coefficient directeur 𝑏, où nous allons utiliser la valeur de 𝑏 au cent-millième près pour être précis, afin de calculer 𝑎, l’ordonnée à l’origine 𝑦. Le résultat est 𝑎 est égal à 168,58167 etc. Soit 168,582 au millième près. La droite de régression des moindres carrés pour ces données au millième près est alors 𝑦 chapeau qui est égal à 168,582 plus 0,201𝑥.
Nous pouvons interpréter ainsi : pour chaque unité de terre supplémentaire, nous nous attendons à ce que la production de cultures d’été augmente d’environ 0,2 kilogrammes.
Une fois que nous avons notre droite de régression, nous pouvons l’utiliser pour estimer les valeurs de la variable dépendante pour des valeurs particulières de la variable indépendante 𝑥. Cependant, si nous faisons cela, nous devons faire très attention à nous limiter aux valeurs 𝑥 dans l’intervalle des données indiquées. Voyons comment cela pourrait fonctionner en utilisant les variables données dans cet exemple. Notre variable dépendante 𝑦 est la production agricole en kilogrammes et notre variable indépendante 𝑥 est la terre cultivée mesurée en feddan. Notre droite de régression des moindres carrés, que nous venons de calculer au millième près à partir des données indiquées, est d’équation 𝑦 égale 168,582 plus 0,201𝑥.
Supposons maintenant que nous voulons savoir à combien de kilogrammes de cultures d’été faut-il s’attendre avec 100 feddans de terres cultivées. En substituant 𝑥 est égal à 100 dans notre équation, cela donne 188,682 kilogrammes. Le tout au millième près. Maintenant, il est bon d’utiliser cette valeur de 𝑥 car elle se situe dans l’intervalle de 𝑥 pour les données, c’est-à-dire entre 13 et 180. Nous pouvons donc utiliser 𝑥 égal à 100 dans l’équation de la droite pour estimer la valeur de 𝑦, la production agricole.
Voyons maintenant un exemple de ce qui pourrait arriver si nous essayons de prédire en utilisant une valeur 𝑥 à l’extérieur de l’intervalle de l’ensemble des données. Supposons qu’on pose 𝑥 est égal à zéro. Cela signifie que nous allons interpréter l’ordonnée à l’origine 𝑦. Si nous posons 𝑥 égal à zéro dans notre équation, nous trouvons 𝑦 chapeau qui est égal à 168,582. Mais cela nous indique qu’avec zéro unités de terre cultivée, la production agricole est estimée à environ 169 kilogrammes, ce qui est absurde puisque si nous n’avons pas de terre, nous ne pouvons pas produire de cultures. Ceci est un exemple d’extrapolation où nous essayons de prédire en dehors de l’intervalle des données indiquées. L’interpolation, en revanche, se produit lorsque nous essayons de prédire ou d’estimer à l’intérieur de l’intervalle des données. Cet exemple illustre que l’extrapolation ne doit être utilisée qu’avec la plus grande prudence.
Terminons cette vidéo en rappelant certains points clés que nous avons abordés. La droite de régression des moindres carrés 𝑦 qui est égal à 𝑎 plus 𝑏𝑥 est un modèle linéaire pour les données à deux variables. Le coefficient 𝑏, qui est le coefficient directeur de la droite, et 𝑎 qui est l’ordonnée à l’origine 𝑦, peuvent être calculés en utilisant les formules indiquées, où 𝑦 barre est la moyenne des valeurs 𝑦, 𝑥 barre est la moyenne des valeurs 𝑥 et 𝑛 est le nombre de paires de données. Nous pouvons utiliser le modèle de régression pour faire des estimations à l’aide de valeurs 𝑥 à l’intérieur de l’intervalle des données indiquées. Cela s’appelle l’interpolation. Cependant, il est déconseillé d’extrapoler, c’est-à-dire d’utiliser des valeurs en dehors de l’intervalle des données connues pour estimer ou prévoir.