Transcrição do vídeo
Neste vídeo, aprenderemos como lidar com a correlação linear e distinguir entre diferentes tipos de correlação. Vamos pensar no que acontece quando traçamos um diagrama de dispersão. Um diagrama de dispersão pode ser utilizado para representar dados bivariados, onde um conjunto de dados é emparelhado com outro conjunto de dados. Por exemplo, podemos procurar representar a precipitação diária na cidade de Nova Iorque em comparação com as vendas de frango frito em libras. Olhando para o diagrama de dispersão, parece haver um padrão ou tendência. Neste caso, à medida que a precipitação diária aumenta, o mesmo acontece com as vendas de frango frito. Neste caso, podemos dizer que estes dois conjuntos de dados têm uma correlação, o que significa que parece haver algum tipo de relação entre eles.
É importante notar, porém, que embora possa parecer encontrarmos uma correlação, isto não significa necessariamente que a causalidade exista. Por outras palavras, não podemos necessariamente assumir que a precipitação diária realmente faz com que as vendas de frango frito aumentem.
Agora, com isto em mente, vamos definir completamente a palavra correlação. Dizemos que dois conjuntos de dados têm correlação quando parece haver uma relação entre eles. Podemos utilizar um diagrama de dispersão para identificar se esta correlação existe. Agora, mais especificamente, se representarmos estes pontos num diagrama de dispersão e parecerem principalmente estar ao longo de uma reta, então diz-se que têm correlação linear. Da mesma forma, se seguirem alguma tendência não linear, como uma curva ou uma tendência logarítmica, então diz-se não terem uma correlação linear. E, é claro, se esta tendência não existir, diz-se que não há correlação.
Considere a correlação linear que discutimos. Um diagrama de dispersão que mostra duas variáveis que têm correlação linear pode parecer-se um pouco com isto. Da mesma forma, pode parecer-se com isto. Os pontos de dados em ambos os casos parecem estar aproximadamente ao longo de uma reta. No nosso segundo exemplo, os pontos podem parecer-se com isto. Neste caso, a reta de regressão é uma curva. Finalmente, se não houver correlação, o nosso diagrama de dispersão pode parecer-se um pouco com isto. Em cada um destes casos, consideramos se podemos realmente desenhar uma reta de regressão em cada um dos nossos pontos. A forma da reta de regressão nos dá informações sobre o tipo de correlação, se houver.
Então, com isto em mente, vamos ver como comparar uma reta de regressão com os dados num diagrama de dispersão. E isto ajudar-nos-á a determinar se os dados têm correlação linear.
Podemos utilizar a reta de regressão para descrever a tendência nos dados? Porquê?
E, em seguida, temos um diagrama de dispersão com uma reta de regressão desenhada. Vamos imaginar que esta suposta reta de regressão não foi desenhada no diagrama. Como construiremos a nossa própria reta de regressão? Como encontraremos uma reta que descreva com mais precisão a tendência nos dados fornecidos pelos pontos azuis? Bem, pode parecer-se um pouco com isto. Sim, à medida que os valores de 𝑥 aumentam, os valores de 𝑦 também aumentam. Mas podemos ver que isto não está necessariamente em linha reta. Isto significa que 𝑥 e 𝑦 parecem ter correlação. Mas diremos que têm correlação não linear. A reta de regressão não é uma reta.
E, portanto, esta não será uma linha sensata de regressão para descrever a tendência nos dados. Certamente não queremos utilizar esta reta de regressão para fazer previsões ou estimativas com base nos dados que nos são fornecidos, e a razão é porque estes dados não têm correlação linear. Não segue aproximadamente uma linha reta.
Agora, embora esta não seja uma reta de regressão sensata para descrever a tendência dos dados, dissemos que tanto a reta de regressão quanto a tendência aparente nos dados mostram que, à medida que os valores de 𝑥 aumentam, os valores de 𝑦 também parece aumentar. E existem algumas frases que podemos utilizar para descrever isto. Dizemos que dois conjuntos de dados têm uma correlação positiva, ou correlação direta, se um conjunto de dados aumenta à medida que o outro aumenta. No caso de correlação linear positiva, os pontos de dados podem parecer-se um pouco com isto. Se os conjuntos de dados tiverem correlação negativa ou inversa, à medida que um conjunto aumenta, o outro diminui e vice-versa. No caso de dois conjuntos de dados que têm correlação linear negativa, os pontos parecem seguir uma reta inclinada para baixo, como vemos.
Portanto, com isto em mente, vamos determinar se os dados têm correlação positiva ou negativa ou não têm correlação utilizando uma reta de regressão.
Que tipo de correlação existe entre as duas variáveis no gráfico de dispersão apresentado?
Quando pensamos em correlação, pensamos em correlação linear - por outras palavras, pontos que seguem aproximadamente uma reta - pensamos em correlação não linear - estes são pontos que podem seguir um tipo diferente de tendência, por exemplo, uma curva. E se as coisas têm correlação linear, dizemos que podem terem correlação linear positiva ou correlação linear negativa, dependendo da direção da reta de regressão. Então, vamos considerar o gráfico que nos foi dado aqui e ver se podemos desenhar uma reta de regressão.
A reta de regressão, é claro, não precisa de passar pela origem, o ponto zero, zero, embora aqui pareça que sim. E esta reta de regressão deve seguir aproximadamente a tendência dos nossos pontos. Podemos agora notar que a nossa reta de regressão se inclina para cima. Por outras palavras, tem um declive positivo. Então, isto diz-nos que, à medida que os valores de 𝑥 aumentam, o mesmo acontece com os valores de 𝑦. Neste caso, então, as variáveis 𝑥 e 𝑦 têm correlação positiva. Especificamente, como estes pontos também seguem aproximadamente uma linha reta, podemos dizer que a correlação é linear. E assim respondemos totalmente à questão. O tipo de correlação que existe é a correlação linear positiva.
Agora, neste exemplo, temos um diagrama de dispersão de um conjunto de dados. Pode não ser sempre o caso. Em vez disto, podemos receber uma descrição do tipo de variáveis. Como veremos agora, precisaremos de utilizar o nosso entendimento de como as variáveis se relacionam umas com as outras como uma maneira de determinar se têm correlação positiva ou negativa ou não têm correlação.
Suponha que a variável 𝑥 seja o número de horas que trabalha e a variável 𝑦 seja o seu salário. Suspeita que quanto mais horas trabalha, maior é o seu salário. Isto segue uma correlação positiva, uma correlação negativa ou não tem correlação?
Dizem-nos que a variável 𝑥 é o número de horas trabalhadas, enquanto a variável 𝑦 é o salário. E estamos à procura de determinar uma relação, se existir, entre estas duas variáveis. Agora, de facto, a suspeita é que quanto mais horas trabalha, maior é o seu salário. Então, vamos tentar representar isto num gráfico de dispersão. A variável 𝑥 é o número de horas trabalhadas, enquanto 𝑦 é o salário, pelo que podemos identificar os eixos como apresentado. Vamos inventar alguns números iniciais. Vamos imaginar que, se trabalhar 15 horas, ganhará 20.000 libras. Pode supor que, se trabalhar 30 horas por semana, ganhará um salário anual de 40.000 libras. Supondo que quanto mais horas trabalhar, maior será o seu salário, poderemos adicionar pontos extras no nosso gráfico de dispersão, como se mostra.
Percebemos que os pontos traçados seguem aproximadamente uma reta e que esta reta tem um declive positivo. Esta inclina-se para cima. Como esta reta se inclina para cima, podemos dizer que as duas variáveis 𝑥 e 𝑦 devem ter correlação positiva. Agora, também assumimos que esta era uma correlação linear positiva, mas pode não ser o caso. Sabemos apenas que quanto maior o número de horas, maior o salário, o que significa que este é um exemplo de correlação positiva.
Agora, neste exemplo, modelámos os nossos pontos de dados como estando muito próximos de uma reta. A distância em que os pontos de dados realmente se encontram em relação a uma reta de regressão descreve a força da correlação. Por exemplo, suponha que estamos interessados em correlação linear positiva. Se todos os pontos estiverem muito próximos da reta de melhor ajuste, como neste exemplo, podemos dizer que é um exemplo de correlação forte. Se, no entanto, os pontos estiverem muito longe da reta de regressão, como neste exemplo, dizemos que há uma correlação fraca. É claro que, eventualmente, esta correlação fraca transforma-se numa nenhuma correlação à medida que os pontos se afastam cada vez mais um do outro. Com isto em mente, vamos determinar a força da correlação no nosso próximo exemplo.
Indique qual dos diagramas de dispersão mostra dados bivariados com uma correlação mais forte.
E, em seguida, há dois diagramas para escolher. Lembre-se, quando pensamos na força de uma correlação, estamos a determinar o quão próximos os pontos estão de uma reta de regressão. Quanto mais próximos estiverem os pontos, mais forte será a correlação. Portanto, faz sentido começar por desenhar a reta de regressão em ambos os diagramas. A reta de regressão no diagrama um pode parecer-se um pouco com isto. Os pontos seguem aproximadamente uma linha reta, então há correlação linear aqui. Especificamente, à medida que as variáveis 𝑥 aumentam, o mesmo acontece com 𝑦. Então, podemos dizer que 𝑥 e 𝑦 têm correlação linear.
No diagrama dois, a nossa reta de regressão parece bastante semelhante. Mas notamos que todos os pontos estão um pouco mais longe da própria reta. Isto significa que no diagrama dois, a correlação é menos forte. Podemos dizer que é fraca. E assim a resposta é o diagrama um. O diagrama de dispersão um mostra dados bivariados com uma correlação mais forte.
Vimos agora como duas variáveis diferentes podem ser relacionadas e o que significa terem uma relação linear ou não linear. Consideramos como descrever a relação entre as variáveis em termos de correlação positiva, negativa ou nenhuma correlação. E vimos como quão forte a correlação entre as variáveis é com base no quão próximas estão de uma reta regressão. Com tudo isto em mente, vamos recapitular os pontos principais desta aula.
Neste vídeo, aprendemos que, se duas variáveis seguem uma tendência de alguma descrição, diz-se que têm correlação. Se modelarmos estes pontos num diagrama de dispersão e parecerem seguir aproximadamente uma linha reta, então existe correlação linear. Então, se a reta de regressão construída parece inclinar-se para cima, ou seja, se seu declive é positivo, então têm correlação positiva. E se esta reta de regressão se inclina para baixo, se tem declive negativo, então estas variáveis são ditas terem correlação negativa. Agora, se nada disto for verdadeiro, ou seja, se uma reta de regressão não puder ser construída, então dissemos que não havia correlação. Finalmente, vimos que podemos determinar a força da correlação considerando o quão próximos todos os pontos estão do RDR, a reta de regressão.