Vídeo: Introduzindo Correlação Linear

O vídeo discute o uso de gráficos de dispersão para introduzir correlação linear. Falamos de correlação positiva (direta) ou negativa (inversa) e forte ou fraca. Também introduzimos a ideia de usar um coeficiente de correlação entre −1 e +1 para quantificar a correlação linear.

16:25

Transcrição do vídeo

Neste vídeo, vamos aprender sobre correlação linear. Existem muitas situações em que temos dois conjuntos de dados relacionados a indivíduos ou eventos, e chamamos isso de dados bivariados. Por exemplo, as pontuações dos alunos em testes de matemática e notas de inglês. Cada aluno fez os dois testes. Portanto, temos dois conjuntos de números relacionados a alunos individuais.

Podemos usar um conjunto para as coordenadas “𝑥” e o outro para as coordenadas “𝑦” e desenhar todos os dados como pontos em um gráfico de dispersão. Então, podemos examinar quaisquer padrões que possam surgir nos gráficos de dispersão para ver se eles sugerem alguma associação entre os dois conjuntos de dados. Um tipo de padrão que pode surgir é uma relação em linha reta. Isso se mostrou tão útil em análises científicas e estatísticas que técnicas foram desenvolvidas para quantificar e interpretar a correlação linear entre dois conjuntos de dados associados. Então, vamos falar sobre correlação linear e a terminologia que usamos para descrevê-la.

Vamos começar descrevendo uma experiência que faço com meus alunos de matemática. Eu dou a cada aluno um círculo de tamanho diferente e peço-lhes para medir o diâmetro e o comprimento da circunferência e então reunimos todos os resultados. Isso parece muito fácil talvez, mas eles só têm réguas para medir. Então eles precisam ser bastante criativos sobre como eles medem o comprimento da circunferência, e eu não os deixo calcular isso se eles souberem sobre “𝜋” e a fórmula.

Portanto, temos duas partes de dados sobre cada circunferência e usamos os diâmetros como as coordenadas “𝑥” e os comprimentos de circunferências como as coordenadas “𝑦” e desenhamos todos esses pontos em um gráfico de dispersão.

Então, aqui estão os dados que recolho em uma aula e aqui está o gráfico de dispersão. Agora, a primeira coisa que salta da página é este ponto aqui, que parece muito diferente de todos os outros. A maioria dos pontos está perto de uma linha reta que executa algo assim, mas o outro ponto está muito longe do grupo. Na verdade, isso se deve a um aluno que leu o diâmetro e o comprimento da circunferência da maneira errada. Então, conseguimos trocar as coordenadas “𝑥” e “𝑦” para corrigi-las. Mas se o aluno que cometeu o erro não estivesse na sala para explicar o que tinha feito, então teríamos uma decisão complicada a tomar. Por que esse ponto está tão longe dos outros? Por que esta é uma circunferência genuína que está muito diferente de todos as outras ou houve algum tipo de erro? Você não deve simplesmente jogar fora os dados porque parece diferente. Você precisa descobrir mais sobre isso: é real ou é um erro? Se é real, então você precisa levar isso em consideração em sua análise.

Então, após a nossa correção, este é o aspecto do gráfico de dispersão com uma nova linha de melhor ajuste. A linha de melhor ajuste que desenhamos está posicionada de forma a minimizar a distância vertical geral a todos os pontos, como estas linhas laranja aqui. É chamado de linha de regressão de mínimos quadrados. Mas não vamos entrar nos detalhes de como calculamos isso agora. Nós só vamos desenhar a olho nu, tentando a nossa régua em várias posições diferentes até encontrarmos uma rota o mais próxima possível do maior número de pontos possível, com um bom equilíbrio de pontos acima e abaixo da linha ao longo de todo o seu comprimento.

Então temos pontos acima e abaixo aqui, temos pontos acima e abaixo aqui, e também temos pontos acima e abaixo no meio aqui.

E agora podemos usar a linha de melhor ajuste para fazer previsões. Por exemplo, se tivéssemos uma circunferência com um diâmetro de “duas” polegadas, poderíamos desenhar uma linha até a nossa linha de melhor ajuste e cruzar com o eixo “𝑦”. E parece que teria um comprimento de circunferência entre “seis” e “seis e meio” polegadas.

Então, sem ter que fazer medições na circunferência se você conhece o diâmetro de uma circunferência, você pode usar esse gráfico para fazer uma previsão sobre qual seria seu comprimento. E da mesma forma, se conhecermos o comprimento da circunferência, poderíamos fazer uma previsão sobre o diâmetro. Portanto, se tivéssemos uma circunferência com um comprimento de “vinte” polegadas, poderíamos traçar uma linha em relação ao eixo “𝑦” para a nossa linha de melhor ajuste e depois para o eixo “𝑥”. E parece que é apenas abaixo de “seis vírgula cinco” polegadas de diâmetro.

Poderíamos até chegar a calcular a equação dessa linha de melhor ajuste e usá-la para fazer nossas previsões. Por exemplo, se tivéssemos um diâmetro de “três” polegadas, “𝑥 seria igual a três”. Podemos inserir isso em nossa equação e, em seguida, isso nos daria uma resposta de “nove vírgula quatro” polegadas para o comprimento da circunferência, o que é um pouco mais fácil e provavelmente mais preciso do que ler fora dessa escala.

Agora, olhando para a equação, podemos ver que a inclinação ou o gradiente é “três vírgula um”. E como o padrão de pontos faz um ajuste muito próximo a uma linha reta e essa linha tem essa inclinação positiva como acabamos de ver, dizemos que os pontos estão correlacionados positivamente, ou se você quer ser realmente preciso, correlacionados linearmente positivamente. E se os pontos tivessem sugerido uma linha com uma inclinação negativa, então teríamos dito que eles tinham uma correlação negativa. Portanto, os termos correlação positiva e negativa são declarações sobre dados bivariados.

Portanto, se valores mais altos em um aspecto de dados estiverem associados a valores mais altos no outro aspecto de dados e valores mais baixos em um aspecto de dados estiverem associados a valores mais baixos no outro aspecto de dados, chamamos essa correlação positiva. E se valores altos em um aspecto de dados estiverem associados a valores baixos no outro aspecto de dados, chamamos isso de correlação negativa. E algumas pessoas chamam correlação direta de correlação positiva e correlação inversa de correlação negativa. Então, esses são termos que você também pode encontrar.

Mas isso não cobre tudo. Às vezes, não há correlação entre dois conjuntos de dados. Por exemplo, se você traçou o número de donuts que as pessoas podem comer sem lamber seus lábios em relação ao número de livros que eles leram no ano passado, você pode esperar que um gráfico de dispersão seja algo parecido com isso. Não há associação entre os dois; não há correlação. Saber quantos livros alguém leu durante o ano passado não diz nada sobre quantos donuts eles provavelmente conseguirão comer sem lamber seus lábios e vice-versa. Ok, então, temos uma ideia básica do que é correlação agora: é uma maneira de descrever associações aparentes entre conjuntos de dados ou até mesmo a falta de associação entre eles. Vamos passar por um resumo de quais são os tipos básicos. Temos correlação positiva ou direta, correlação negativa ou inversa e nenhuma correlação. Mas também existem diferentes forças de correlação. Portanto, uma correlação forte é quando os pontos estão mais próximos de uma linha de melhor ajuste. Correlação mais fraca é quando eles estão espalhados um pouco mais aleatoriamente mais longe dessa linha de melhor ajuste; há um pouco mais de variação acontecendo lá.

Assim, por exemplo, com uma correlação positiva fraca, você ainda obtém valores de dados mais altos em um aspecto de dados associado a valores mais altos no outro aspecto de dados e inferior com menor e assim por diante. Mas a imagem é um pouco mais confusa; não é tão claro que eles estejam correlacionados. E, da mesma forma, com correlação negativa, você ainda tem valores altos em um aspecto de dados associado a valores baixos no outro aspecto de dados. Mas está claro que esses pontos não estão de acordo com essa linha de melhor ajuste.

Agora esta ideia de correlação forte e fraca é um pouco fofa e lanosa. Se desenhámos os eixos de forma ligeiramente diferente e utilizamos uma escala diferente, poderíamos fazer com que a correlação parecesse mais forte ou mais fraca, tendo os pontos mais espaçados ou mais próximos da linha. Então não é tão bom assim. Mas, felizmente, temos algo chamado coeficiente de correlação que quantifica a força da correlação. E este é um número que é executado em uma escala de “menos um” para correlação negativa perfeita até “zero” para nenhuma correlação até “mais um” para correlação positiva perfeita.

Portanto, uma correlação negativa perfeita seria quando todos os pontos se sentassem exatamente nessa linha de melhor ajuste. Em perfeita correlação positiva, todos os pontos caberiam exatamente nessa linha de melhor ajuste. Assim, em ambos os casos, nossa linha de melhor ajuste faria previsões perfeitas de uma coisa à outra.

Então, voltando para a nossa tarefa de medição circular que fizemos com meus alunos, isso deveria nos dar uma correlação positiva perfeita entre o diâmetro e o comprimento da circunferência. Sabemos que existe uma fórmula que descreve exatamente essa relação: o comprimento da circunferência é “𝜋 vezes o diâmetro”. Agora, a única razão pela qual não saiu perfeita foi porque os alunos não puderam medir as circunferências com precisão de “cem por cento”. Mas nós vimos uma correlação positiva bastante forte. E tínhamos uma boa dose de confiança de que as previsões de um aspecto baseado no outro usando nossa linha de melhor ajuste seriam bastante confiáveis, porque todos os pontos de dados estavam próximos a essa linha. A linha foi um bom preditor para os pontos de dados que reunimos.

Então, voltando à nossa escala, tivemos uma correlação bastante forte. Foi provavelmente nesta região, não “um”, mas se aproximando de “um”.

Então, no mundo real, as coisas estão bem bagunçadas. Então, nós provavelmente nunca esperaríamos obter uma correlação perfeita negativa ou perfeita positiva. Nós estaríamos sempre operando neste tipo de zona entre aqui em algum lugar e nós olharemos para a tendência: estamos geralmente mais perto do “menos um” ou estamos geralmente mais perto de “zero” ou estamos geralmente mais perto de “um”?

Portanto, o valor do coeficiente de correlação nos diz quão confiáveis ​​são as previsões feitas usando nossa linha de melhor ajuste. Perto de “menos um” ou “mais um”, isso significa que eles são confiáveis. Mais perto de “zero”, eles são totalmente não confiáveis.

Então, vamos dar uma olhada nesses dois gráficos de dispersão. Então, há duas turmas, A e B, e as duas fizeram um teste de matemática e um de inglês. E usamos as notas de inglês como nossas coordenadas “𝑥”; e as notas de matemática como nossas coordenadas “𝑦”. Então, para a classe A, temos esse padrão específico. Todo mundo marcou cerca de “cinquenta” em inglês, mas há uma gama completa de notas em matemática. E para a turma B, todo mundo marcou cerca de “cinquenta” em matemática, mas há uma série completa de notas em inglês.

Agora, esses pontos sugerem uma linha bem clara de melhor ajuste em cada caso. Então, para a classe A, a linha de melhor ajuste seria vertical; e para a classe B, a linha de melhor ajuste seria horizontal. Então, quão forte você acha que é a correlação em cada caso? Bem, na verdade — ambos os casos — temos “zero” ou nenhuma correlação. E isso porque conhecer uma das notas não diz nada sobre a outra. Não há previsibilidade de uma nota com base na outra nota. Na classe A, se eu souber que alguém marcou “cinquenta” em inglês, isso não me diz nada sobre o que eles podem ter marcado em matemática. As pessoas que marcaram “cinquenta” em inglês fizeram uma série de diferentes notas no teste de matemática. E da mesma forma para a classe B, se eu souber que alguém marcou “cinquenta” em matemática, isso não me permite prever qual nota eles obtiveram em seu teste de inglês porque as pessoas que marcaram “cinquenta” em matemática pontuaram uma série completa de notas diferentes em seu teste de inglês.

Isso significa que, embora os pontos sugiram uma linha reta muito boa de melhor ajuste, porque é exatamente horizontal ou vertical, você não pode usar uma pontuação para fazer uma previsão sobre a outra para qualquer aluno. Isso significa que não há correlação entre as duas. Correlação refere-se sobre o poder de prever um dado para outro dado.

Agora, a correlação também é sobre a associação entre dados dentro de um determinado intervalo. Por exemplo, em um de março, plantei algumas sementes de girassol no meu jardim e medi a altura das plantas todos os dias. No final de setembro, eu tinha reunido muitos dados. E havia uma forte correlação positiva entre o número de dias que se passaram desde que eu plantei as sementes e a altura de minhas plantas, que tinham cerca de “doze” pés de altura naquele estágio. Agora, ao estender esse padrão, eu previ com confiança que até o final do mês de janeiro seguinte minhas plantas terão “vinte” pés de altura e me perguntei se isso seria um recorde mundial. Claro que eu estava errado. O outono chegou. Eles pararam de crescer, morreram, caíram e apodreceram.

Embora os dados que reuni fossem muito bons para estimar o quão altas as plantas teriam sido ao longo do tempo em que eu estava coletando os dados nesta região aqui, acabou sendo muito ruim fazer previsões sobre o futuro. Usar padrões para fazer estimativas dentro do intervalo de dados que você coletou é chamado de interpolação. E isso pode ser muito confiável se os dados tiverem correlação positiva forte ou negativa forte. Mas, ao tentar usar esses padrões para fazer previsões sobre o futuro ou para além do intervalo de dados, os dados que você coletou são chamados de extrapolação. E pode ser muito pouco confiável mesmo em dados perfeitamente correlacionados ao intervalo de dados que você reuniu.

Outra coisa, embora tenhamos falado sobre correlação neste vídeo, na verdade — como mencionamos isso algumas vezes — queremos dizer correlação linear: quão bem os dados se encaixam em um padrão de linha reta. Às vezes, os dados não se ajustam tão bem a uma linha reta, mas talvez se encaixem em uma curva.

Tome estes dados sobre o número de visitas ao Reino Unido entre “mil novecentos e setenta e oito” e “mil novecentos e noventa e nove” por exemplo. Se encaixarmos um padrão linear no meio aqui, podemos ver que, embora seja uma linha muito boa, que se encaixa melhor com esse padrão que surge nas extremidades, a linha tende a menosprezar o número de milhares de visitas feitas a cada ano, mas no meio é previsão extrapolada. Então, embora pareça uma linha reta razoável de melhor adequação, há um padrão para a maneira como se comete erros ao fazer previsões.

Se nos encaixamos mais de uma curva como essa, então há uma mistura de subestimações e superestimações se movendo ao longo dessa linha. Por isso, é um indicador um pouco melhor do número de visitas com base no ano em questão.

Portanto, embora a correlação não linear esteja além do escopo deste vídeo, apenas queremos que você esteja ciente de que é algo que existe. Então, analisamos a correlação positiva ou fraca forte ou direta. Então, nós vimos uma correlação forte ou fraca positiva ou direta: quanto mais próximo o coeficiente de correlação for de “um”, mais forte será a correlação. E vimos uma correlação forte ou fraca negativa ou inversa: nesse caso, quanto mais próximo o coeficiente de correlação for de “menos um”, mais forte será a correlação.

E nós vimos exemplos de não correlação. Agora isso pode acontecer se você tiver este respingo de pontos aleatórios que se parece com isso ou se você tem uma linha completamente vertical ou completamente horizontal de melhor ajuste. Quando o coeficiente de correlação está próximo de “zero”, saber um dado não ajuda a prever o que o outro seria. Então, por exemplo, se soubéssemos qual era a pontuação em matemática deles, não nos ajudaria a prever qual era a pontuação em inglês, porque há toda uma série de valores diferentes que ela poderia ter sido.

Também vimos que, quando temos uma boa correlação forte fazendo interpolação, fazer previsões de um dado baseado no outro dentro do intervalo de dados que temos pode ser bastante confiável. Mas tentar extrapolar ou fazer previsões além do intervalo de dados que coletamos pode nos dar resultados muito ruins.

Uma última coisa, a correlação fala sobre associação, não necessariamente causalidade. Pode ser apenas uma coincidência que dois conjuntos de dados se correlacionem ou talvez haja algum outro fator subjacente que afeta ambos os conjuntos de dados. Por exemplo, entre “dois mil” e “dois mil e nove”, uma análise da quantidade média de margarina consumida por pessoa nos Estados Unidos a cada ano se correlacionou fortemente com a taxa de divórcio por mil pessoas no estado do Maine naquele ano. Isso é apenas uma coincidência. Como o número de divórcios em um determinado estado pode ser afetado pela quantidade de margarina consumida em outras partes do país?

Há também uma correlação negativa muito fraca entre como os dentes das pessoas pardas são e por quanto tempo elas vivem. Agora não há ligação causal entre os dois. Mas o tempo de vida mais curto e os dentes amarelados são causados ​​pelo fumo do tabaco. Então, talvez esse aspecto esteja causando essa aparente correlação fraca entre esses dois outros dados.

A Nagwa usa cookies para garantir que você tenha a melhor experiência em nosso site. Saiba mais sobre nossa Política de privacidade.