Vídeo da aula: Linha de Regressão de Mínimos Quadrados Matemática

Uma explicação detalhada de como usar o método de regressão de mínimos quadrados para encontrar a equação de uma linha de melhor ajuste para os pontos em um gráfico de dispersão, juntamente com uma exploração de como usar e interpretar a equação depois que você a encontrou.

17:14

Transcrição do vídeo

Neste vídeo, vamos ver o método de regressão de mínimos quadrados para encontrar a equação de uma linha de melhor ajuste através de pontos em um gráfico de dispersão. Também falaremos um pouco sobre a teoria por trás do método e como usar e interpretar a equação de regressão quando você tiver descoberto o que ela é. Vejamos um exemplo de uma situação em que você pode querer calcular a equação da linha de regressão de mínimos quadrados.

Alguns alunos fizeram um experimento no qual penduraram objetos de várias massas em uma mola. E mediram o comprimento da mola em cada caso. Encontre a equação da linha de regressão de mínimos quadrados. Bem, podemos ver, por exemplo, quando eles penduraram uma massa de dez quilos a partir da mola, tinham doze centímetros de comprimento. Quando penduraram vinte quilos, tinham dezesseis centímetros e assim por diante. Portanto, esses dados são bivariados. Existem duas variáveis: massa e comprimento. E cada par de dados se relaciona a um evento específico. Portanto, colocar uma massa de vinte quilos na mola estende-a a dezesseis centímetros.

Agora, a primeira coisa sobre a qual precisamos pensar é qual é a variável dependente. E qual é a variável independente. Agora, a variável independente é aquela que você controlaria ou alteraria normalmente. E isso causa alterações no valor da outra variável, a variável dependente. Portanto, a variável dependente depende do valor da outra variável. Agora estamos escolhendo quais massas colocar na mola. E isso está causando a mudança no comprimento na mola. Então, o comprimento é a variável dependente. E a massa é a variável independente. Agora tendemos a chamar a variável independente 𝑥 e a variável dependente 𝑦. Então vamos adicionar essas letras à nossa tabela.

Agora podemos traçar esses pontos em um gráfico de dispersão. E parece que temos uma correlação positiva muito forte entre as duas variáveis. De fato, quando você calcula o coeficiente de correlação do momento do produto de Pearson, ele se torna 0,99 para duas casas decimais. Então, sim, isso é uma correlação positiva muito forte. Então, como vamos desenhar uma linha adequada de melhor ajuste? Bem, poderíamos apenas tentar estabelecer nossa régua em várias posições até parecer que os pontos estão geralmente tão próximos quanto possível da linha. Então podemos ler alguns pares de coordenadas da linha e calcular sua equação. No entanto, felizmente, há uma maneira mais metódica e consistente de fazê-lo. Calculando a equação da linha de regressão de mínimos quadrados. E a maneira como isso funciona é especificar uma linha que minimize a soma dos quadrados dos resíduos de cada um dos pontos.

Então, por exemplo, se chamarmos esse ponto um, essa distância aqui, essa distância vertical entre o ponto e a linha, é chamada de residual. Portanto, se a equação de nossa linha de melhor ajuste for 𝑦 igual a 𝑎 mais 𝑏𝑥, poderemos inserir coordenadas 𝑥 lá e fazer previsões sobre quais seriam as coordenadas 𝑦 correspondentes. Assim, os resíduos de cada ponto são a diferença entre essa previsão de nossa estimativa e os valores reais que observamos quando fizemos o experimento. Portanto, para esses pontos aqui, nossas estimativas estavam sob estimativas dos valores reais. E para esses pontos aqui, nossas estimativas superaram as estimativas dos valores reais que observamos. Então, poderíamos pensar em alguns dos resíduos como sendo positivos e alguns dos resíduos como negativos.

Então, se tentarmos várias linhas diferentes de melhor ajuste e, para cada uma, somarmos todos os resíduos. Podemos esperar que as linhas com uma soma dos resíduos próximos do zero sejam a melhor linha de melhor ajuste das linhas com maiores somas de resíduos. Mas a questão é que algumas linhas espetacularmente ruins de melhor ajuste podem ser desenhadas. De modo que todos os resíduos positivos equilibrem exatamente todos os resíduos negativos e nos deem soma de zero. Então, para contornar este problema em potencial, o modelo de regressão de mínimos quadrados pega os quadrados de todos os resíduos, de modo que os resultados sejam todos positivos. E então ele encontra a linha que minimiza a soma dos quadrados de todos esses resíduos. Daí o nome regressão de mínimos quadrados.

Agora não vamos entrar em detalhes aqui sobre como obter a fórmula exata. Mas vamos falar sobre como usá-la. A fórmula então para a linha de regressão de mínimos quadrados é 𝑦 é igual a 𝑎 mais 𝑏𝑥 onde 𝑏 é 𝑆𝑥𝑦 sobre 𝑆𝑥𝑥, onde 𝑆𝑥𝑦 é a covariância de 𝑥 e 𝑦 dividida por 𝑛. E 𝑆𝑥𝑥 é a variância de 𝑥 dividida por 𝑛. Além disso, o valor de 𝑎 é igual ao valor médio de 𝑦 menos 𝑏 vezes o valor médio de 𝑥. Agora lembre-se de calcular o valor de 𝑆𝑥𝑦, temos que multiplicar cada par de coordenadas 𝑥 e 𝑦 e depois somar o resultado de todas elas. E então precisamos pegar a soma de todos os 𝑥s e vezes a soma de todos os 𝑦s. E depois pegar esse resultado e dividi-lo pelo número de dados que temos. E para calcular o valor de 𝑆𝑥𝑥, ajustamos cada um dos pedaços de dados de 𝑥. E somamos todos esses quadrados. E a partir daí, subtraímos a soma de todos os valores de 𝑥 ao quadrado e depois dividimos pelo número de dados que temos.

Ok, tudo parece muito horrível no papel no momento. Mas quando analisamos o exemplo, tenho certeza de que você achará isso muito mais fácil. Em primeiro lugar, tomamos a tabela de valores que nos foi dada na questão. E, em seguida, precisamos estendê-la um pouco. Precisamos criar algumas colunas extras e uma linha extra na parte inferior. Então, em primeiro lugar, as colunas dos valores 𝑥 ao quadrado, de modo que cada valor 𝑥 individual está ao quadrado e, em seguida, os valores 𝑥𝑦. Então, para cada par de dados, tomamos o valor 𝑥 e o multiplicamos pelo valor 𝑦. Em seguida, criamos uma linha na parte inferior de todos os nossos totais. Então, primeiro de tudo, vamos somar todos os 𝑥s e depois somar todos os 𝑦s. Bem, dez mais vinte mais trinta mais quarenta mais cinquenta é cento e cinquenta. E se eu somar todos os cinco valores de 𝑦, recebo uma resposta de 120. Não, eu tenho cinco pares de dados. Então, é 𝑛 igual a cinco. E elevando cada valor 𝑥 ao quadrado, 10 ao quadrado é 100. 20 ao quadrado é 400 e assim por diante. Depois, somando todos eles, recebo 5500.

Agora eu vou fazer 𝑥 vezes 𝑦. Então, 10 vezes 12 são 120. 20 vezes 16 vezes 320 e assim por diante. E então, se somarmos todos esses, eu tenho 4230. Agora posso calcular os valores individuais. Então, 𝑆𝑥𝑦, lembre-se de que era a soma dos 𝑥 vezes 𝑦s menos a soma dos 𝑥s menos a soma dos 𝑦s dividida pelo número de dados. Bem, a soma dos 𝑥𝑦s é 4230. A soma dos 𝑥s é 150. A soma dos 𝑦s é 120. E eu tenho cinco dados. Então, colocando isso na minha calculadora, recebo 630. E 𝑆𝑥𝑥, eu preciso somar a coluna 𝑥 ao quadrado. E preciso somar a coluna 𝑥, elevar esse valor ao quadrado e dividir pelo número de dados. Bem, o total de todos os 𝑥 quadrados somados é de 5500. E a soma dos 𝑥s é 150. Então, eu tenho que elevar ao quadrado 150 e dividir pelo número de partes de dados, cinco. E quando eu coloco isso na minha calculadora, recebo 1000. Então, apenas anotando os que estão à esquerda enquanto eu faço algum espaço para fazer mais cálculos à direita. O valor de 𝑏 na equação da minha linha reta é igual a 𝑆𝑥𝑦 sobre 𝑆𝑥𝑥. Então, são 630 dividido por 1000, que é 0,63.

Agora, calcular o valor de 𝑎 é um pouco mais complicado. Eu preciso calcular a coordenada média 𝑦 e a coordenada média 𝑥 e então também levar em conta a resposta que recebi para 𝑏 naquela primeira parte. Então, para calcular o valor médio 𝑦, só preciso somar todos os 𝑦s e dividir por quantos eles são. Então são 120 dividido por cinco, que são 24. E o mesmo processo novamente para os 𝑥s, basta somar todos os valores 𝑥 e dividir por quantos eles são. Então isso é 150 dividido por cinco, que é trinta. Então, o valor médio de 𝑥 é trinta. O valor médio de 𝑦 é 24. Então, 𝑎 é a média dos valores de 𝑦 menos 𝑏 vezes a média dos valores de 𝑥, que é 24 menos 0,63 vezes 30. E isso nos dá uma resposta de 5,1. Então, novamente, apenas fazendo uma nota desses valores para que eu possa continuar do lado direito com mais trabalho. A equação da nossa linha de melhor ajuste é 𝑦 é igual a 𝑎 mais 𝑏𝑥. Portanto, nossa linha de regressão de mínimos quadrados é 𝑦 igual a 5,1 mais 0,63 vezes a coordenada 𝑥.

Agora isso é ótimo. Então, agora temos uma equação que nos permite fazer previsões sobre o comprimento da mola, dadas as diferentes massas que estavam penduradas nela. Então, por exemplo, se nós pendurássemos uma massa de 37 quilos na mola, nós apenas colocaríamos um valor 𝑥 de 37 na equação. E faríamos nossa previsão de que 𝑦 é igual a 28,41 centímetros. Isso seria por quanto tempo esperaríamos que a mola ficasse com essa massa pendurada. Agora, como nosso gráfico de dispersão mostrou que tínhamos uma correlação positiva muito forte, esperávamos que a equação fizesse estimativas bastante razoáveis de valores de 𝑦, considerando determinados valores 𝑥. Bem, isso é o que esperamos que sejam boas estimativas, se usarmos valores de 𝑥 entre cerca de 10 e 50. Em outras palavras, se usarmos a equação para interpolar os valores de 𝑦.

Agora reunimos dados, dados de 𝑥, nesse intervalo. Não sabemos se essa mesma equação será verdadeira fora desse intervalo. Por exemplo, se colocarmos uma massa de 60 ou 70 ou 80 quilos na mola, ela poderia arrebentar. Então nossa equação simplesmente não funcionaria. Portanto, usar a equação para fazer previsões de valores de 𝑦 com base em valores de 𝑥 no intervalo para o qual coletamos dados é chamado de interpolação. Mas estende-se além desse intervalo e fazer previsões com valores de 𝑥 menores que 10 ou maiores que 50 é chamado de extrapolação. E, como dissemos, a extrapolação geralmente é uma má ideia. Porque não ficaremos tão confiantes de que as regras ainda se aplicam a esses valores de dados. E nossa equação pode não ser válida.

Agora poderíamos usar a equação para fazer previsões sobre o comprimento da mola sem qualquer peso sobre ela. Então, colocamos um valor 𝑥 de zero. E teríamos a equação 𝑦 igual a 5,1 mais 0,63 vezes zero. Assim, o comprimento da mola sem peso adicionado seria 5,1 centímetros. Agora, rapidamente, eu vou voltar aqui em cima e mudar para um ponto positivo. Obviamente, nós tivemos um pequeno erro lá. Então, peço desculpas por isso. Então, voltando à nossa questão aqui com uma massa de zero quilograma, temos um comprimento de mola de 5,1 centímetros. Então, isso está nos dizendo as condições iniciais para um problema, se você gostar. Sem massas adicionadas, a mola terá 5,1 centímetros. Agora eu acho que você pode identificar o problema em potencial com isso. Como coletamos somente dados com valores de 𝑥 de 10 a 50 quilos, a equação que estamos extrapolando volta a zero aqui. De modo que talvez não seja necessariamente verdadeira. Pode ser verdade. Mas não temos 100 por cento de certeza de que a equação ainda será válida para esses valores 𝑥.

Agora também podemos interpretar os parâmetros nessa equação de regressão. Esse coeficiente de 𝑥, o múltiplo de 𝑥 ali, 0,63 significa que cada vez que eu acrescento mais um quilograma, então eu aumento 𝑥 por um. Então, a mola se estende por 0,63 centímetros. E como acabamos de ver esse número ali, o 5,1 por conta própria, quando eu tenho um valor 𝑥 de zero, então, 𝑦 é igual a 5,1. Então, quando nenhuma massa é adicionada à mola, seu comprimento seria de 5,1 centímetros. Agora este método de análise de regressão de mínimos quadrados parece mágica. Simplesmente processe seus dados. E você terá uma equação fácil de usar para fazer previsões de um valor a partir do outro, brilhante!

Mas lembre-se, você também precisa considerar a força de correlação antes de usar sua linha de regressão de mínimos quadrados para fazer previsões. Se houver pouca ou nenhuma correlação, a equação lhe dará previsões ou estimativas pouco confiáveis. Você também precisa considerar a quantidade de dados usada para criar o modelo. Quanto mais dados você tiver, geralmente, mais confiável e mais realista será esse modelo. E lembre-se, não extrapole. A interpolação é muito boa. Se a correlação for muito boa, então os valores interpolados serão previsões muito boas. Valores extrapolados, você realmente não sabe o quão confiáveis eles serão.

Ok, aqui está uma para você tentar.

Encontre a equação de regressão de mínimos quadrados para os dados a seguir. E use-a para estimar o valor de 𝑦 quando 𝑥 é igual a nove e, em seguida, comente seu resultado.

Então, temos alguns dados aqui para 𝑥 e 𝑦. Quando 𝑥 é um, 𝑦 é doze. Quando 𝑥 é dois, 𝑦 é sete e assim por diante. E nós lhe demos as fórmulas lá embaixo para você usar. Então, pressione pausa e volte quando tiver respondido à pergunta. E eu vou responder - Certo, primeiro precisamos adicionar duas colunas, os 𝑥s ao quadrado e o 𝑥𝑦s. Agora vamos preenchê-los. Um ao quadrado é um. Dois ao quadrado são quatro e assim por diante. E agora, os 𝑥𝑦s, um vezes doze é doze. Duas vezes sete são quatorze e assim por diante. Agora vamos adicionar uma linha na parte inferior de todos os totais. Agora, se eu somar todos os valores de 𝑥, recebo quinze. Somando todos os valores de 𝑦 me dá um total de 37. Somando todos os valores de 𝑥 ao quadrado me dá um total de 55. E somando todos os produtos de 𝑥 e 𝑦, tenho um total de 93. E como tenho cinco conjuntos de dados, 𝑛 é igual a cinco.

Então, 𝑆𝑥𝑦 é a soma dos 𝑥𝑦s menos a soma dos 𝑥s vezes a soma dos 𝑦s tudo sobre 𝑛. Então, isso é 93 menos 15 vezes 37 tudo sobre cinco, que é menos 18. E o valor 𝑆𝑥𝑥 é a soma do 𝑥 ao quadrado menos a soma dos 𝑥s todos ao quadrado divididos por 𝑛. Bem, na soma do 𝑥 ao quadrado é 55. A soma dos 𝑥s é 15. E 𝑛 é cinco. De modo que se torna 55 menos 15 ao quadrado sobre cinco, que equivale a 10. Assim, calculando os valores dos parâmetros para nossa equação de nossa linha reta, 𝑦 é igual a 𝑎 mais 𝑏𝑥. O valor 𝑏 é 𝑆𝑥𝑦 dividido por 𝑆𝑥𝑥. Bem, isso era menos 18 dividido por 10, que é menos 1,8. E o valor médio de 𝑦 era apenas a soma de todos os 𝑦s divididos por quantos existem. Isto é, 37 dividido por cinco, que é 7,4. E o valor médio de 𝑥 é a soma de todos os valores de 𝑥 divididos por quantos existem. Então são 15 dividido por cinco, que são três. Então, o valor de 𝑎 é a média 𝑦 menos 𝑏 vezes a média 𝑥. Agora, porque o valor de 𝑏 é menos 1,8, precisamos ter bastante cuidado com nossos sinais negativos aqui. Então, são 7,4 menos menos 1,8 vezes três, que equivale a 12,8.

Portanto, a equação da nossa linha de regressão de mínimos quadrados, 𝑦 é igual a 𝑎 mais 𝑏𝑥. Tudo o que precisamos fazer então é substituir nossos valores em 𝑎 e 𝑏. Então essa é a equação. 𝑦 é igual a 12,8 menos 1,8𝑥. E agora temos que substituir em 𝑥 é igual a nove para fazer uma previsão do valor 𝑦 correspondente. Assim, 𝑦 seria igual a 12,8 menos 1,8 vezes nove, que seria menos 3,4. Agora comentando o resultado, tem algumas coisas que eu quero dizer. Uma é que extrapolamos. Veja, os valores de 𝑥 que coletamos em termos de nossos dados que eram de um a cinco. Bem, nós usamos um valor de 𝑥 de nove. Então nós extrapolamos. Então, não necessariamente sabemos quão confiável essa resposta será. E a outra coisa que eu diria é que não sabemos quão boa é a correlação. Não sabemos o coeficiente de correlação de Pearson ou qualquer outro coeficiente de correlação para esse assunto. Então, mesmo se tivéssemos interpolado nosso valor, ainda não saberíamos realmente o quanto essa resposta seria confiável. Mas o ponto principal a ser feito é que era um valor extrapolado. Então, precisamos ser cautelosos sobre isso.

Então, em resumo, podemos calcular a equação da nossa linha de regressão de mínimos quadrados 𝑦 igual a 𝑎 mais 𝑏𝑥 usando 𝑏 é igual a 𝑆𝑥𝑦 sobre 𝑆𝑥𝑥. E 𝑎 é igual à média dos valores de 𝑦 menos 𝑏 vezes a média dos valores de 𝑥. Então 𝑆𝑥𝑦, lembre-se, é a soma das respostas 𝑥 vezes 𝑦 menos a soma dos 𝑥s vezes a soma dos 𝑦s sobre quantos dados nós temos. O valor 𝑆𝑥𝑥 é a soma dos valores de 𝑥 ao quadrado menos a soma dos valores de 𝑥 todos ao quadrado divididos pelos números de dados que você tem. E você sabe como calcular o valor médio de 𝑦 e o valor médio de 𝑥. Você acabou de adicioná-los e dividir por quantos você conseguiu. E finalmente tome cuidado com a extrapolação.

A Nagwa usa cookies para garantir que você tenha a melhor experiência em nosso site. Saiba mais sobre nossa Política de privacidade.