Vídeo: Linha de Regressão de Mínimos Quadrados

Uma explicação detalhada de como usar o método de regressão de mínimos quadrados para encontrar a equação de uma linha de melhor ajuste para os pontos em um gráfico de dispersão, juntamente com uma exploração de como usar e interpretar a equação depois que você a encontrou.

17:14

Transcrição do vídeo

Neste vídeo, vamos ver o método de regressão de mínimos quadrados para encontrar a equação de uma linha de melhor ajuste através de pontos em um gráfico de dispersão. Também falaremos um pouco sobre a teoria por trás do método e como usar e interpretar a equação de regressão quando você tiver descoberto o que ela é.

Vejamos um exemplo de uma situação em que você pode querer calcular a equação da linha de regressão de mínimos quadrados. Alguns alunos fizeram um experimento no qual penduraram objetos de várias massas em uma mola e mediram o comprimento da mola em cada caso. Encontre a equação da linha de regressão de mínimos quadrados. Bem, podemos ver, por exemplo, quando eles penduraram uma massa de dez quilos a partir da mola, tinham doze centímetros de comprimento. Quando penduraram vinte quilos, tinham dezesseis centímetros e assim por diante. Portanto, esses dados são bivariados. Existem duas variáveis: massa e comprimento. E cada par de dados se relaciona a um evento específico. Portanto, colocar uma massa de vinte quilos na mola estende-a a dezesseis centímetros. Agora, a primeira coisa sobre a qual precisamos pensar é qual é a variável dependente e qual é a variável independente. Agora, a variável independente é aquela que você controlaria ou alteraria normalmente e causa alterações no valor da outra variável, a variável dependente. Portanto, a variável dependente depende do valor da outra variável. Agora estamos escolhendo quais massas colocar na mola e isso está causando a mudança no comprimento na mola. Então comprimento é a variável dependente e a massa é a variável independente. Agora tendemos a chamar a variável independente 𝑥 e a variável dependente 𝑦, então vamos adicionar essas letras à nossa tabela.

Agora podemos traçar esses pontos em um gráfico de dispersão. E parece que temos uma correlação positiva muito forte entre as duas variáveis. De fato, quando você calcula o coeficiente de correlação do momento do produto de Pearson, ele se torna zero vírgula nove nove para duas casas decimais. Então, sim, isso é uma correlação positiva muito forte.

Então, como vamos desenhar uma linha adequada de melhor ajuste? Bem, poderíamos apenas tentar estabelecer nossa régua em várias posições até parecer que os pontos estão geralmente tão próximos quanto possível da linha. Então podemos ler alguns pares de coordenadas da linha e calcular sua equação. No entanto, felizmente, há uma maneira mais metódica e consistente de fazê-lo, calculando a equação da linha de regressão de mínimos quadrados. E a maneira como isso funciona é especificar uma linha que minimize a soma dos quadrados dos resíduos de cada um dos pontos. Então, por exemplo, se chamarmos esse ponto um, essa distância aqui, essa distância vertical entre o ponto e a linha, é chamada de residual. Portanto, se a equação de nossa linha de melhor ajuste for 𝑦 igual a 𝑎 mais 𝑏𝑥, poderemos inserir coordenadas 𝑥 lá e fazer previsões sobre quais seriam as coordenadas 𝑦 correspondentes. Assim, os resíduos de cada ponto são a diferença entre essa previsão de nossa estimativa e os valores reais que observamos quando fizemos o experimento.

Portanto, para esses pontos aqui, nossas estimativas estavam sob estimativas dos valores reais. E para esses pontos aqui, nossas estimativas superaram as estimativas dos valores reais que observamos. Então, poderíamos pensar em alguns dos resíduos como sendo positivos e alguns dos resíduos como negativos. Então, se tentarmos várias linhas diferentes de melhor ajuste e, para cada uma, somarmos todos os resíduos, podemos esperar que as linhas com uma soma dos resíduos próximos do zero sejam a melhor linha de melhor ajuste das linhas com maiores somas de resíduos. Mas a coisa é que algumas linhas espetacularmente ruins de melhor ajuste podem ser desenhadas de modo que todos os resíduos positivos equilibrem exatamente todos os resíduos negativos e nos deem soma de zero.

Então, para contornar este problema em potencial, o modelo de regressão de mínimos quadrados pega os quadrados de todos os resíduos, de modo que os resultados sejam todos positivos. E então ele encontra a linha que minimiza a soma dos quadrados de todos esses resíduos, daí o nome regressão de mínimos quadrados. Agora não vamos entrar em detalhes aqui sobre como obter a fórmula exata, mas vamos falar sobre como usá-la. A fórmula então para a linha de regressão de mínimos quadrados é 𝑦 é igual a 𝑎 mais 𝑏𝑥 onde 𝑏 é 𝑆𝑥𝑦 sobre 𝑆𝑥𝑥, onde 𝑆𝑥𝑦 é a covariância de 𝑥 e 𝑦 dividida por 𝑛, e 𝑆𝑥𝑥 é a variância de 𝑥 dividida por 𝑛. Além disso, o valor de 𝑎 é igual ao valor médio de 𝑦 menos 𝑏 vezes o valor médio de 𝑥.

Agora lembre-se de calcular o valor de 𝑆𝑥𝑦, temos que multiplicar cada par de coordenadas 𝑥 e 𝑦 e depois somar o resultado de todos eles somados juntos. E então precisamos pegar a soma de todos os 𝑥s e vezes a soma de todos os 𝑦s, e depois pegar esse resultado e dividi-lo pelo número de dados que temos. E para calcular o valor de 𝑆𝑥𝑥, ajustamos cada um dos pedaços de dados de 𝑥 e somamos todos esses quadrados. E a partir daí, subtraímos a soma de todos os valores de 𝑥 ao quadrado e depois dividimos pelo número de dados que temos.

Ok, tudo parece muito horrível no papel no momento, mas quando analisamos o exemplo, tenho certeza de que você achará isso muito mais fácil. Em primeiro lugar, tomamos a tabela de valores que nos foi dada na questão e, em seguida, precisamos estendê-la um pouco. Precisamos criar algumas colunas extras e uma linha extra na parte inferior. Então, em primeiro lugar, as colunas dos valores 𝑥 ao quadrado, de modo que cada valor 𝑥 individual está ao quadrado e, em seguida, os valores 𝑥𝑦. Então, para cada par de dados, tomamos o valor 𝑥 e o multiplicamos pelo valor 𝑦. Em seguida, criamos uma linha na parte inferior de todos os nossos totais. Então, primeiro de tudo, vamos somar todos os 𝑥s e depois somar todos os 𝑦s. Bem dez mais vinte mais trinta mais quarenta mais cinquenta é cento e cinquenta. E se eu somar todos os cinco valores de 𝑦, recebo uma resposta de cento e vinte. Não, eu tenho cinco pares de dados, então é 𝑛 igual a cinco. E elevando cada valor 𝑥 ao quadrado, dez ao quadrado é cem, vinte ao quadrado é quatrocentos e assim por diante. Depois, somando todos eles, recebo cinco mil e quinhentos. Agora eu vou fazer 𝑥 vezes 𝑦, então dez vezes doze são cento e vinte. Vinte vezes dezesseis vezes trezentos e vinte e assim por diante. E então, se somar todos esses, eu tenho quatro mil duzentos e trinta.

Agora posso calcular os valores individuais, então 𝑆𝑥𝑦, lembre-se de que era a soma dos 𝑥 vezes 𝑦s menos a soma dos 𝑥s menos a soma dos 𝑦s dividida pelo número de dados. Bem, a soma dos 𝑥𝑦s é quatro mil duzentos e trinta. Soma dos 𝑥s é cento e cinquenta. A soma dos 𝑦s é cento e vinte. E eu tenho cinco dados. Então, colocando isso na minha calculadora, recebo seiscentos e trinta. E 𝑆𝑥𝑥, eu preciso somar a coluna 𝑥 ao quadrado e preciso somar a coluna 𝑥, elevar esse valor ao quadrado e dividir pelo número de partes dos dados.

Bem, o total de todos os 𝑥 quadrados somados é de cinco mil e quinhentos. E a soma dos 𝑥s é cento e cinquenta, então eu tenho um quadrado de cento e cinquenta e divido pelo número de partes de dados, cinco. E quando eu coloco isso na minha calculadora, recebo mil. Então, apenas anotando os que estão à esquerda enquanto eu faço algum espaço para fazer mais cálculos à direita, o valor de 𝑏 na equação da minha linha reta é igual a 𝑆𝑥𝑦 sobre 𝑆𝑥𝑥. Então são seiscentos e trinta divididos por mil, que é zero vírgula seis três. Agora, calcular o valor de 𝑎 é um pouco mais complicado. Eu preciso calcular a coordenada 𝑦 e a coordenada média 𝑥 e então também levar em conta a resposta que recebi para 𝑏 naquela primeira parte.

Então, para calcular o valor médio 𝑦, só preciso somar todos os 𝑦s e dividir por quantos eles são. Então são cento e vinte dividido por cinco, que são vinte e quatro. E o mesmo processo novamente para os 𝑥s, basta somar todos os valores 𝑥 e dividir por quantos eles são. Então isso é cento e cinquenta dividido por cinco, que é trinta. Então, o valor médio de 𝑥 é trinta. O valor médio de 𝑦 é vinte e quatro. Então, 𝑎 é a média dos valores de 𝑦 menos 𝑏 vezes a média dos valores de 𝑥, que é vinte e quatro menos zero vírgula seis três vezes trinta. E isso nos dá uma resposta de cinco vírgula um. Então, novamente, apenas fazendo uma nota desses valores para que eu possa continuar do lado direito com mais trabalho.

A equação da nossa linha de melhor ajuste é 𝑦 é igual a 𝑎 mais 𝑏𝑥. Portanto, nossa linha de regressão de mínimos quadrados é 𝑦 igual a cinco vírgula um mais zero vírgula seis três vezes a coordenada 𝑥. Agora isso é ótimo. Então, agora temos uma equação que nos permite fazer previsões sobre o comprimento da mola, dadas as diferentes massas que estavam penduradas nela. Então, por exemplo, se nós pendurássemos uma massa de trinta e sete quilos na mola, nós apenas colocaríamos um valor 𝑥 de trinta e sete na equação. E faríamos nossa previsão de que 𝑦 é igual a vinte e oito vírgula quatro um centímetros. Isso seria por quanto tempo esperaríamos que a mola ficasse com essa massa pendurada. Agora, como nosso gráfico de dispersão mostrou que tínhamos uma correlação positiva muito forte, esperávamos que a equação fizesse estimativas bastante razoáveis ​​de valores de 𝑦, considerando determinados valores 𝑥.

Bem, isso é o que esperamos que sejam boas estimativas, se usarmos valores de 𝑥 entre cerca de dez e cinquenta, em outras palavras, se usarmos a equação para interpolar os valores de 𝑦. Agora reunimos dados, dados de 𝑥, nesse intervalo. Não sabemos se essa mesma equação será verdadeira fora desse intervalo. Por exemplo, se colocarmos uma massa de sessenta ou setenta ou oitenta quilos na mola, ela poderia arrebentar. Então nossa equação simplesmente não funcionaria. Portanto, usar a equação para fazer previsões de valores de 𝑦 com base em valores de 𝑥 no intervalo para o qual coletamos dados é chamado de interpolação, mas estende-se além desse intervalo e fazer previsões com valores de 𝑥 menores que dez ou maiores que cinquenta é chamado extrapolação. E, como dissemos, a extrapolação geralmente é uma má ideia, porque não ficaremos tão confiantes de que as regras ainda se aplicam a esses valores de dados e nossa equação pode não ser válida. Agora poderíamos usar a equação para fazer previsões sobre o comprimento da mola sem qualquer peso sobre ela. Então, colocamos um valor 𝑥 de zero e teríamos a equação 𝑦 igual a cinco vírgula um mais zero vírgula seis três vezes zero. Assim, o comprimento da mola sem peso adicionado seria cinco vírgula um centímetro.

Agora, rapidamente, eu vou voltar aqui em cima e mudar isso para mais. Obviamente, nós tivemos um pequeno erro lá, então peço desculpas por isso. Então, voltando à nossa questão aqui com uma massa de zero quilograma, temos um comprimento de mola de cinco vírgula um centímetros. Então, isso está nos dizendo as condições iniciais para um problema, se você gostar. Sem massas adicionadas, a mola terá cinco vírgula um centímetros. Agora eu acho que você pode identificar o problema em potencial com isso. Como coletamos somente dados com valores de 𝑥 de dez a cinquenta quilos, a equação que estamos extrapolando volta a zero aqui, de modo que talvez não seja necessariamente verdadeira. Pode ser verdade, mas não temos cem por cento de certeza de que a equação ainda será válida para esses valores 𝑥.

Agora também podemos interpretar os parâmetros nessa equação de regressão. Esse coeficiente de 𝑥, o múltiplo de 𝑥 ali, zero vírgula seis três significa que cada vez que eu acrescento mais um quilograma, então eu aumento 𝑥 por um, então a mola se estende por zero vírgula seis três centímetros. E como acabamos de ver esse número ali, o cinco vírgula um por conta própria, quando eu tenho um valor 𝑥 de zero, então, 𝑦 é igual a cinco vírgula um. Então, quando nenhuma massa é adicionada à mola, seu comprimento seria de cinco vírgula um centímetro.

Agora este método de análise de regressão de mínimos quadrados parece mágica. Simplesmente processe seus dados e você terá uma equação fácil de usar para fazer previsões de um valor do outro, brilhante! Mas lembre-se, você também precisa considerar a força de correlação antes de usar sua linha de regressão de mínimos quadrados para fazer previsões. Se houver pouca ou nenhuma correlação, a equação lhe dará previsões ou estimativas muito confiáveis. Você também precisa considerar a quantidade de dados usada para criar o modelo. Quanto mais dados você tiver, geralmente, mais confiável e mais realista será esse modelo. E lembre-se, não extrapole. A interpolação é muito boa se a correlação for muito boa, então os valores interpolados serão previsões muito boas. Valores extrapolados, você realmente não sabe o quão confiáveis ​​eles serão.

Ok, aqui está uma para você tentar. Encontre a equação de regressão de mínimos quadrados para os dados a seguir e use-a para estimar o valor de 𝑦 quando 𝑥 é igual a nove e, em seguida, comente seu resultado. Então, temos alguns dados aqui para 𝑥 e 𝑦 quando 𝑥 é um, 𝑦 é doze quando 𝑥 é dois, 𝑦 é sete e assim por diante. E nós lhe demos as fórmulas lá embaixo para você usar. Então, pressione pausa e volte quando tiver respondido à pergunta e eu vou responder. Certo, primeiro precisamos adicionar duas colunas, o 𝑥 ao quadrado e o 𝑥𝑦s. Agora vamos preenchê-los; um ao quadrado é um, dois ao quadrado são quatro e assim por diante. E agora, os 𝑥𝑦s, uma vez doze é doze, duas vezes sete são quatorze e assim por diante.

Agora vamos adicionar uma linha na parte inferior de todos os totais. Agora, se eu somar todos os valores de 𝑥, recebo quinze, somando todos os valores de 𝑦 me dá um total de trinta e sete, somando todos os valores de 𝑥 ao quadrado me dá um total de cinquenta e cinco, e somando todos os produtos de 𝑥 e 𝑦, tenho um total de noventa e três. E como tenho cinco conjuntos de dados, 𝑛 é igual a cinco, então 𝑆𝑥𝑦 é a soma dos 𝑥𝑦s menos a soma dos 𝑥s menos a soma dos 𝑦s tudo sobre 𝑛. Então, isso é noventa e três menos quinze vezes trinta e sete tudo sobre cinco, que é menos dezoito. E o valor 𝑆𝑥𝑥 é a soma do 𝑥 ao quadrado menos a soma dos 𝑥s todos ao quadrado divididos por 𝑛. Bem, na soma do 𝑥 ao quadrado é cinquenta e cinco, a soma dos 𝑥s é quinze e 𝑛 é cinco, de modo que se torna cinquenta e cinco menos quinze ao quadrado sobre cinco, que equivale a dez. Assim, calculando os valores dos parâmetros para nossa equação de nossa linha reta, 𝑦 é igual a 𝑎 mais 𝑏𝑥. O valor 𝑏 é 𝑆𝑥𝑦 dividido por 𝑆𝑥𝑥. Bem, isso era menos dezoito dividido por dez, que é menos um vírgula oito. E o valor médio de 𝑦 era apenas a soma de todos os 𝑦s divididos por quantos existem, isto é, trinta e sete dividido por cinco, que é sete vírgula quatro. E o valor médio de 𝑥 é a soma de todos os valores de 𝑥 divididos por quantos existem. Então são quinze divididos por cinco, que são três. Então, o valor de 𝑎 é a média 𝑦 menos 𝑏 vezes a média 𝑥.

Agora, porque o valor de 𝑏 é menos um vírgula oito, precisamos ter bastante cuidado com nossos sinais negativos aqui. Então, são sete vírgula quatro menos menos um vírgula oito vezes três, que equivale a doze vírgula oito. Portanto, a equação da nossa linha de regressão de mínimos quadrados, 𝑦 é igual a 𝑎 mais 𝑏𝑥. Tudo o que precisamos fazer então é substituir nossos valores em 𝑎 e 𝑏. Então essa é a equação: 𝑦 é igual a doze vírgula oito menos um vírgula oito 𝑥. E agora temos que substituir em 𝑥 é igual a nove para fazer uma predição do valor 𝑦 correspondente. Assim, 𝑦 seria igual a doze vírgula oito menos um vírgula oito vezes nove, que seria menos três vírgula quatro.

Agora comentando o resultado, tem algumas coisas que eu quero dizer; uma é que extrapolamos. Veja, os valores de 𝑥 que coletamos em termos de nossos dados que eram de um a cinco. Bem, nós usamos um valor de 𝑥 de nove, então nós extrapolamos. Então, não necessariamente sabemos quão confiável essa resposta será. E a outra coisa que eu diria é que não sabemos quão boa é a correlação. Não sabemos o coeficiente de correlação de Pearson ou qualquer outro coeficiente de correlação para esse assunto. Então, mesmo se tivéssemos interpolado nosso valor, ainda não saberíamos realmente o quanto essa resposta seria confiável. Mas o ponto principal a ser feito é que era um valor extrapolado, então precisamos ser cautelosos sobre isso.

Então, em resumo, podemos calcular a equação da nossa linha de regressão de mínimos quadrados 𝑦 igual a 𝑎 mais 𝑏𝑥 usando 𝑏 é igual a 𝑆𝑥𝑦 sobre 𝑆𝑥𝑥 e 𝑎 é igual à média dos valores de 𝑦 menos 𝑏 vezes a média dos valores de 𝑥. Então 𝑆𝑥𝑦, lembre-se, é a soma das respostas 𝑥 vezes 𝑦 menos a soma dos 𝑥s vezes a soma dos 𝑦s sobre quantos dados nós temos. O valor 𝑆𝑥𝑥 é a soma dos valores de 𝑥 ao quadrado menos a soma dos valores de 𝑥 todos ao quadrado divididos pelos números de dados que você tem. E você sabe como calcular o valor médio de 𝑦 e o valor médio de 𝑥. Você acabou de adicioná-los e dividir por quantos você conseguiu. E finalmente tome cuidado com a extrapolação.

A Nagwa usa cookies para garantir que você tenha a melhor experiência em nosso site. Saiba mais sobre nossa Política de privacidade.