Transcripción del vídeo
En este video, vamos a aprender cómo hallar y usar la ecuación de la recta de regresión de mínimos cuadrados. El término regresión fue utilizado por primera vez por un estadístico inglés, Sir Francis Galton, en la época victoriana al analizar la relación entre la estatura de los padres y de sus hijos. Concluyó que los hijos de padres más altos crecían hasta ser un poco más bajos que sus padres, mientras que los hijos de padres más pequeños crecían hasta ser más altos que sus padres. Llamó a este efecto regresión hacia la mediocridad; es decir, las alturas se desplazaron, o retrocedieron, hacia la media.
En la actualidad, usamos el análisis de regresión para identificar y analizar relaciones entre variables. El método de regresión por mínimos cuadrados nos permite determinar la recta de mejor ajuste para un conjunto de datos bivariados. Y en este video, vamos a aprender cómo hallar la recta de regresión de mínimos cuadrados usando fórmulas para los coeficientes de la ecuación de la recta. Recordemos que los datos bivariados son datos recopilados sobre dos variables cuantitativas, es decir, variables numéricas, en los que las observaciones se emparejan para cada individuo. Digamos, por ejemplo, que 𝑥 es la estatura y 𝑦 es el peso. Si tenemos 𝑛 personas en nuestra muestra, nuestro conjunto de datos consistirá en 𝑛 pares de medidas, cada par correspondiente a una persona. Así que, por ejemplo, 𝑥 uno sería la estatura de la persona número uno, y 𝑦 uno sería el peso de la persona número uno.
Supongamos ahora que tanto el diagrama de dispersión como el coeficiente de correlación indican que la estatura y el peso de las variables están relacionados linealmente. Es decir, a medida que una variable aumenta, la otra aumenta linealmente o disminuye linealmente. Nuestro siguiente paso será intentar representar esta relación con la línea que mejor se ajuste a nuestros datos. Es decir, queremos hallar la recta, 𝑦 igual a 𝑎 más 𝑏𝑥, cuya distancia desde cada uno de nuestros puntos sea mínima. La distancia vertical entre el punto 𝑥𝑖, 𝑦𝑖 y la recta es 𝑦𝑖 menos 𝑦 gorro, donde 𝑦 gorro es el valor de la ordenada 𝑦 del punto en la recta cuya abscisa es 𝑥𝑖. Esta distancia para cada punto se llama residuo o error. La recta de regresión de mínimos cuadrados, que a menudo vemos con un gorro sobre 𝑦, minimiza la suma de los cuadrados de los errores, de ahí la frase mínimos cuadrados.
¿Cómo hallamos la recta de regresión por mínimos cuadrados? Si 𝑦 gorro igual a 𝑎 más 𝑏𝑥 es la recta de regresión de mínimos cuadrados para un conjunto de datos bivariados con las variables 𝑥 y 𝑦, entonces la pendiente 𝑏 está dada por 𝑆𝑥𝑦 partido por 𝑆 subíndice 𝑥𝑥, donde 𝑆 subíndice 𝑥𝑦 es la sumatoria de los productos 𝑥𝑦 menos la sumatoria de 𝑥 multiplicada por la sumatoria de 𝑦 dividida por 𝑛. Y 𝑆 subíndice 𝑥𝑥 es la sumatoria de los cuadrados de las 𝑥 menos la sumatoria de las 𝑥 al cuadrado dividido por 𝑛. Y 𝑛 es el número de pares de datos que hay. Dado un conjunto de datos bivariados, así es como hallamos la pendiente de nuestra recta, 𝑏. La ordenada 𝑦 en el origen de la recta, que está denotada por la letra 𝑎 en su ecuación, está dada por 𝑦 barra, que es la media de los valores 𝑦, menos 𝑏 por la media de los valores 𝑥, y debemos recordar que la media de los valores 𝑦 es la sumatoria de los valores 𝑦 dividida por 𝑛; y de manera similar haremos con los valores 𝑥.
Podemos ver en nuestras fórmulas que para hallar la intersección de la recta con el eje 𝑦, o sea 𝑎, primero necesitamos hallar la pendiente 𝑏 y la media de los valores 𝑥 y la media de los valores 𝑦. Es posible que veas algunas de estas fórmulas escritas en formas un poco diferentes pero equivalentes. Así que vamos a tomar nota de algunas de estas fórmulas También podemos escribir la pendiente 𝑏 como 𝑟 multiplicado por 𝑆 subíndice 𝑦 partido por 𝑆 subíndice 𝑥, donde 𝑟 es el coeficiente de correlación de Pearson, 𝑆 subíndice 𝑦 es la desviación estándar de 𝑦 y 𝑆 subíndice 𝑥 es la desviación estándar de 𝑥. Si sustituimos nuestras expresiones 𝑆 subíndice 𝑥𝑦 y 𝑆 subíndice 𝑥𝑥 en nuestra fórmula para 𝑏, hallamos la expresión para 𝑏 que se muestra. Y de hecho, vamos a usar esto en nuestros ejemplos. También puedes ver 𝑆 subíndice 𝑥𝑦 y 𝑆 subíndice 𝑥𝑥 escritos de esta otra manera.
Ahora que tenemos las fórmulas para nuestros coeficientes 𝑎 y 𝑏, veamos un ejemplo en el que vamos a ver cómo hallar la pendiente 𝑏 de la recta de regresión a partir de un puñado de parámetros estadísticos.
De un conjunto de datos se sabe que la suma de los valores de 𝑥 es 47, la suma de los valores de 𝑦 es 45.75, la suma de los cuadrados de las 𝑥 es 329, la suma de los cuadrados de las 𝑦 es 389.3125, la sumatoria de los productos 𝑥𝑦 es 310.25; y que 𝑛 es igual a ocho. Calcula el valor de 𝑏 en la ecuación de la recta de regresión por mínimos cuadrados 𝑦 igual a 𝑎 más 𝑏𝑥. Redondea la respuesta a tres cifras decimales.
Nos dan un puñado de parámetros estadísticos de un conjunto de datos. Tenemos la sumatoria de los valores de 𝑥, la sumatoria de los valores de 𝑦, la sumatoria de los cuadrados de las 𝑥, la sumatoria de los cuadrados de las 𝑦 y la sumatoria del producto 𝑥𝑦. Y sabemos que en nuestro conjunto de datos hay 𝑛 igual a ocho pares de datos bivariados. Nos piden hallar el coeficiente 𝑏, es decir, la pendiente de la recta de regresión por mínimos cuadrados de ecuación 𝑦 igual a 𝑎 más 𝑏𝑥. Usamos la fórmula que se muestra para calcular 𝑏, y comenzamos escribiendo nuestras estadísticas de resumen.
Como nos dan 𝑛, la sumatoria del producto 𝑥𝑦, la sumatoria de las 𝑥, la sumatoria de las 𝑦 y la sumatoria de los cuadrados de las 𝑥, lo único que queda por hallar para poder usar la fórmula es el cuadrado de la suma de todas las 𝑥. Y como la suma de las 𝑥 es 47, el cuadrado de la suma de todas las 𝑥 es 47 al cuadrado; eso es 2209. Sustituyendo nuestros valores en la fórmula, tenemos ocho, que es 𝑛, multiplicado por 310.25, esa es la suma del producto, menos la suma de las 𝑥, que es 47, multiplicada por la suma de las 𝑦, que es 45.75, todo sobre ocho multiplicado por 329 menos 2209. Evaluando nuestros productos, esto nos da 2482 menos 2150.25 dividido por 2632 menos 2209. Nuestro numerador es 331.75 y nuestro denominador 423, que se evalúa a aproximadamente 0.78428. Eso es cinco cifras decimales.
Por lo tanto, con tres cifras decimales, el coeficiente de regresión 𝑏 es igual a 0.784.
Y aunque en realidad no nos piden hallar la ecuación de la recta ni la intersección con el eje 𝑦, que está dada por 𝑦 barra menos 𝑏 por 𝑥 barra, donde 𝑦 barra y 𝑥 barra son la media de 𝑦 y 𝑥, respectivamente, podemos calcular 𝑎 y, por lo tanto, la ecuación de la recta, con bastante rapidez. La media de los valores de 𝑦 es la sumatoria de los valores de 𝑦 dividida por 𝑛; eso es 45,75 dividido por ocho. Eso es 5.71875. Del mismo modo, la media de las 𝑥 es la sumatoria de las 𝑥 sobre 𝑛. Eso es 47 sobre ocho, y eso es 5.875. Sustituyendo estos valores en nuestra fórmula para 𝑎, tenemos que 𝑎 es igual a 5.71875, que es la media de las 𝑦, menos 0.78428, que es 𝑏 con cinco cifras decimales, multiplicado por 5.875, que es la media de las 𝑥. Así que la ordenada 𝑦 en el origen 𝑎 es igual a 1.111 con tres cifras decimales.
Y, por lo tanto, la ecuación de la recta de regresión de mínimos cuadrados para nuestro conjunto de datos es 𝑦 igual a 1.111 más 0.784𝑥, donde hemos calculado nuestros coeficientes con tres cifras decimales.
En este ejemplo, nos dieron un puñado de parámetros estadísticos de un conjunto de datos. Y en nuestro siguiente ejemplo, vamos a ver cómo hallar la recta de regresión de mínimos cuadrados a partir de los datos en sí.
El diagrama de dispersión muestra un conjunto de datos para los cuales el modelo de regresión lineal parece apropiado. Los datos usados para producir este diagrama de dispersión se dan en la tabla que se muestra a continuación. Calcula la ecuación de la recta de regresión de mínimos cuadrados de 𝑦 en 𝑥, redondeando los coeficientes de regresión a la milésima más cercana.
La ecuación de la recta de regresión por mínimos cuadrados es 𝑦 gorro igual a 𝑎 más 𝑏𝑥, donde 𝑦 gorro es el valor predicho para 𝑦 para cada valor de 𝑥, 𝑎 es la intersección de la recta con el eje 𝑦 y 𝑏 es la pendiente de la recta. Para hallar la ecuación de la recta, primero hallamos la pendiente 𝑏, lo que podemos hacer con la fórmula que se muestra. Luego usamos este valor para 𝑏 para hallar la ordenada 𝑦 en el origen de la recta, 𝑎, la cual está dada por la media de 𝑦 menos 𝑏 por la media de 𝑥, donde recordamos que la media de los valores de 𝑦 está dada por la sumatoria de los valores de 𝑦 dividido por el número de pares de datos 𝑛, y de manera similar para la media de 𝑥. De hecho, en nuestro caso, tenemos ocho pares de datos, por lo que 𝑛 es igual a ocho. Así que vamos a tomar nota de todo esto.
Para hallar los coeficientes 𝑎 y 𝑏, vamos a necesitar las distintas sumas que se muestran en las fórmulas. Y para calcular estas sumas, comenzamos expandiendo nuestra tabla para incluir una fila para el producto 𝑥𝑦 y otra para los cuadrados de los valores 𝑥. En la primera celda de nuestra nueva fila para el producto 𝑥𝑦, tenemos el producto del primer valor 𝑥 0.5 con el primer valor 𝑦 9.25, y eso es 4.625. Así que ponemos esto en la primera celda de nuestra nueva fila. Nuestra segunda nueva entrada será el segundo valor de 𝑥, que es uno, multiplicado por el segundo valor de 𝑦 7.6. Eso es 7.6. Y esto va a la segunda celda para la nueva fila de productos. Y podemos completar los productos restantes 𝑥𝑦, como se muestra.
La primera entrada en nuestra segunda fila nueva es el primer valor de 𝑥 al cuadrado. Esto es 0.5 al cuadrado, que es 0.25. Y esto va en la primera celda de nuestra segunda fila nueva. Nuestro segundo valor de 𝑥 al cuadrado es uno al cuadrado, que es uno. Y podemos completar el resto de los valores de 𝑥 al cuadrado en nuestra segunda fila nueva como se muestra. Recuerda: estamos tratando de hallar esta suma, así que nuestro siguiente paso es sumar cada una de las filas. Y, si introducimos una nueva columna para nuestras sumas, entonces, por ejemplo, la suma de nuestros valores de 𝑥 es 18. Y esta es la primera entrada en nuestra nueva columna. Sumar nuestros valores de 𝑦 nos da 45.1. La sumatoria de los productos es 78.05. Y la suma de los cuadrados de las 𝑥 es 51.
Así que ahora podemos usar estos valores para calcular la pendiente 𝑏 de nuestra recta. En nuestra fórmula, tenemos ocho, que es 𝑛, multiplicado por 78.05, la suma de nuestros productos, menos 18, que es la suma de las 𝑥, multiplicada por 45.1, la suma de las 𝑦, todo sobre 𝑛, ocho, por 51, que es la suma de los cuadrados de las 𝑥, menos 18 al cuadrado, que es la suma de todas las 𝑥 al cuadrado. Evaluar nuestros productos nos da 624.4 menos 811.8, todo dividido por 408 menos 324. Y escribiendo esto en nuestra calculadora, hallamos que 𝑏 es aproximadamente igual a menos 2.23095. Con tres cifras decimales, es decir, a la milésima más cercana, eso es menos 2.231.
Podemos ver en nuestro diagrama de dispersión que a medida que los valores de 𝑥 de los puntos aumentan, los valores de 𝑦 de los puntos disminuyen. Y esto concuerda con el hecho de que nuestro coeficiente 𝑏 es negativo, menos 2.231. Y ahora, haciendo algo de espacio para que podamos calcular la intersección con el eje 𝑦, vemos a partir de nuestra fórmula que primero vamos a necesitar calcular la media de los valores de 𝑥 y la media de los valores de 𝑦. La media de los valores de 𝑦 es 45.1 dividido por ocho. Eso es 5.6375. La media de los valores de 𝑥 es 18 dividido por ocho, que es 2.25.
Y así, haciendo algo de espacio nuevamente, podemos usarlos para calcular nuestro coeficiente 𝑎. Y tenemos 𝑎 igual a 5.6375 menos menos 2.23095, que es 𝑏 con cinco cifras decimales, multiplicado por 2.25. Esto se evalúa a aproximadamente 10.65714, que es 10.657 con tres cifras decimales, es decir, a la milésima más cercana. Así que, la ecuación de la recta de regresión por mínimos cuadrados de 𝑦 en 𝑥 para estos datos es 𝑦, que es igual a 10.657, menos 2.231𝑥 todo a la milésima más cercana. Ten en cuenta que escribimos 𝑦 con un gorro para indicar que este es un valor predicho para 𝑦 utilizando la recta calculada con los datos dados. De todas formas, a menudo verás esto escrito simplemente como 𝑦 es igual a 𝑎 más 𝑏𝑥.
Hasta ahora, no nos han dado ninguna información de a qué se refieren las variables 𝑥 y 𝑦. Pero al considerar variables de la vida real en el contexto de la regresión, si es posible, primero establecemos cuál de ellas es la variable dependiente y cuál es la variable independiente. Recuerda que las variables independientes son variables que podemos controlar o cambiar. Y creemos que tienen un efecto sobre una variable dependiente. Otro nombre para las variables independientes es variables explicativas, y a menudo se denotan por 𝑥. Las variables dependientes, por otro lado, son variables que se están probando y que dependen de una o más variables independientes. Como responden a los cambios en la variable o variables independientes, a menudo se les llama variables de respuesta, y a menudo se las denota por 𝑦.
En nuestro siguiente ejemplo, vamos a calcular los coeficientes para la recta de regresión de mínimos cuadrados para datos de la vida real. Así que tendremos que comenzar determinando cuál es la variable dependiente y cuál es la independiente.
Usando la información en la tabla, halla la recta de regresión 𝑦 que es igual a 𝑎 más 𝑏𝑥. Redondea 𝑎 y 𝑏 a tres cifras decimales.
Como queremos hallar la recta de regresión, comenzamos determinando cuál de nuestras variables es la dependiente y cuál es la variable independiente. Podemos esperar que la cantidad de cosecha de verano producida en kilogramos dependa de la cantidad de tierra en la que se produce. Así que especificamos que la producción en kilogramos es la variable dependiente 𝑦, mientras que la tierra cultivada medida en fedan es la variable independiente 𝑥. Y, bueno, un fedan es una unidad de superficie que es algo menos de media hectárea.
Para hallar la recta de regresión, debemos hallar la pendiente 𝑏 y la ordenada 𝑦 en el origen de la recta 𝑎. Y para hallar estos valores, vamos a usar las dos fórmulas que se muestran. Primero calculamos la pendiente 𝑏 ya que la necesitaremos para calcular la ordenada 𝑦 en el origen. Y vemos en nuestra fórmula para 𝑏 que vamos a necesitar hallar varias sumas, o sea, la suma de los productos 𝑥𝑦, la sumatoria de los valores 𝑥, la sumatoria de los valores 𝑦, la sumatoria de los valores de 𝑥 al cuadrado, y también vamos a necesitar el cuadrado de la suma de las 𝑥. Y para hallar el valor de 𝑎, vamos a necesitar la media de los valores de 𝑦, es decir, la sumatoria de los valores de 𝑦 dividida por 𝑛, que es el número de pares de datos, y de manera similar para la media de los valores de 𝑥.
En nuestro conjunto de datos, tenemos 10 pares de datos, por lo que 𝑛 es igual a 10. Y tomamos nota de esto antes de comenzar a hacer nuestros cálculos. Nuestro siguiente paso es hallar las sumas. Y para hallar la suma de nuestros productos 𝑥𝑦 y nuestros valores de 𝑥 al cuadrado, introducimos dos nuevas filas en nuestra tabla. Para calcular los productos 𝑥𝑦, tomando nuestro primer 𝑥 y nuestro primer 𝑦, tenemos 126 multiplicado por 160. Eso es 20160. Y esto va a la primera celda de nuestra primera fila nueva. Nuestro segundo producto es nuestro segundo valor 𝑥 multiplicado por nuestro segundo valor 𝑦. Eso es 13 multiplicado por 40, que es 520. Y esto va a nuestra segunda celda en la primera fila nueva. Luego podemos completar esta fila con los productos como se muestra.
El primer elemento en nuestra segunda fila nueva es el primer valor de 𝑥 al cuadrado, es decir, 126 al cuadrado, que es 15876. Y esto va a nuestra segunda fila nueva. Nuestro segundo valor de 𝑥 al cuadrado es 13 al cuadrado, que es 169. Y esto va a la segunda celda de nuestra segunda fila nueva. Y continuamos de esta manera para completar la fila. Nuestro siguiente paso es hallar la suma de cada una de las filas. Así que introducimos una nueva columna. La sumatoria de los valores de 𝑥 es 967. La sumatoria de los valores de 𝑦 es 1880. La sumatoria de los productos 𝑥𝑦 es 189320. Y la suma de los cuadrados de las 𝑥 es 130977. Así que ahora, con todas nuestras sumas, estamos en condiciones de calcular 𝑏.
Sustituyendo nuestras sumas en la fórmula para 𝑏 con 𝑛 igual a 10, obtenemos 10 por 189320, esa es la suma de los productos 𝑥𝑦, menos 967, que es la suma de las 𝑥, multiplicada por 1880, que es la suma de los 𝑦, todo dividido por 10, que es 𝑛, multiplicado por la sumatoria de los valores de 𝑥 al cuadrado, que es 130977, menos 967 al cuadrado. Esa es la sumatoria de todas las 𝑥 al cuadrado. Y evaluando nuestro numerador y denominador, tenemos 75240 dividido por 374681. Y esto vale 0.20081. Con tres cifras decimales, tenemos que 𝑏 es igual a 0.201.
Ahora, para hallar la ordenada 𝑦 en el origen, 𝑎, necesitamos hallar las medias de los valores de 𝑦 y de 𝑥. La media de las 𝑦 es la sumatoria de todos los valores de 𝑦 dividida por 𝑛. Eso es 1880 dividido por 10, y eso es 188. Del mismo modo, la media de los valores de 𝑥 es la sumatoria de 𝑥 dividida por 𝑛. Y eso es 967 dividido por 10, que es 96.7. Y ahora podemos usar estos valores junto con nuestra pendiente 𝑏, donde usaremos el valor de 𝑏 con cinco cifras decimales para mayor precisión, para hallar la ordenada 𝑦 en el origen, 𝑎. Evaluar esto nos da 𝑎 igual a 168.58167 etc. Esto, con tres cifras decimales, es 168.582. Hemos obtenido, por lo tanto, que, con tres cifras decimales, la ecuación de la recta de regresión por mínimos cuadrados para estos datos es 𝑦 igual a 168.582 más 0.201𝑥.
Podemos interpretar esto como que, por cada unidad adicional de tierra, esperamos que la producción de la cosecha de verano aumente en aproximadamente 0.2 kilogramos.
Una vez que tenemos nuestra recta de regresión, podemos usarla para estimar los valores de la variable dependiente para valores particulares de la variable independiente 𝑥. Sin embargo, si hacemos esto, debemos tener mucho cuidado de restringirnos a los valores de 𝑥 dentro del rango de los datos conocidos. Veamos cómo se hace esto usando las variables en este ejemplo. Nuestra variable dependiente 𝑦 es la producción de cultivos en kilogramos, y nuestra variable independiente 𝑥 es la tierra cultivada medida en fedanes. Nuestra recta de regresión de mínimos cuadrados, que acabamos de calcular con tres cifras decimales a partir de los datos dados, es 𝑦 igual a 168.582 más 0.201𝑥.
Supongamos ahora que queremos saber cuántos kilogramos de cosecha de verano podemos esperar de 100 fedanes de tierra cultivada. Hacemos 𝑥 igual a 100 en nuestra ecuación y obtenemos un valor de 188.682 kilogramos. Eso es con tres cifras decimales. Está bien usar este valor de 𝑥 ya que está dentro del rango de 𝑥 de nuestros datos, es decir, entre 13 y 180. Así que podemos usar 𝑥 igual a 100 en la ecuación de la recta para estimar el valor de 𝑦, la producción de cultivos.
Veamos ahora un ejemplo de lo que podría suceder si intentamos predecir usando un valor de 𝑥 fuera del rango de los datos. Supongamos que hacemos 𝑥 igual a cero. Esto significa que vamos a interpretar la intersección con 𝑦. Si hacemos 𝑥 igual a cero en nuestra ecuación, hallamos que 𝑦 gorro es igual a 168.582. Pero esto nos dice que, con cero unidades de tierra cultivada, la producción de cultivos se estima en aproximadamente 169 kilogramos, lo cual es absurdo, ya que, si no tenemos tierra, no podemos producir ningún cultivo. Este es un ejemplo de extrapolación, que es cuando intentamos predecir fuera del rango de los datos conocidos. La interpolación, por otro lado, es cuando intentamos predecir o estimar dentro del rango de los datos conocidos. Este ejemplo ilustra que la extrapolación debe usarse con la mayor precaución.
Y vamos a terminar este video recordando algunos de los puntos clave que hemos tratado. La recta de regresión por mínimos cuadrados 𝑦 igual a 𝑎 más 𝑏𝑥 es un modelo lineal para datos bivariados. Los parámetros 𝑏, que es la pendiente de la recta, y 𝑎, que es la intersección de la recta con el eje 𝑦, se pueden calcular usando las fórmulas que se muestran, donde 𝑦 barra es la media de los valores 𝑦 y 𝑥 barra es la media de los valores 𝑥 y 𝑛 es el número de pares de datos. Podemos usar el modelo de regresión para estimar usando valores de 𝑥 dentro del rango de los datos dados. Y eso se llama interpolación. Sin embargo, no es recomendable hacer predicciones para valores de 𝑥 fuera del rango de los datos conocidos; eso es extrapolación.