Lesson Video: Coeficiente de Correlação de Pearson | Nagwa Lesson Video: Coeficiente de Correlação de Pearson | Nagwa

Lesson Video: Coeficiente de Correlação de Pearson

Neste vídeo, aprenderemos como calcular e utilizar o coeficiente de correlação de Pearson, r, para descrever a força e a direção de uma relação linear.

19:32

Video Transcript

Neste vídeo, aprenderemos como calcular e utilizar o coeficiente de correlação de Pearson 𝑟 para descrever a força e a direção de uma relação linear. Começaremos por recordar-nos de alguns termos e ideias relacionados à correlação, que exploraremos com alguns exemplos. E a seguir, calcularemos o coeficiente de correlação produto-momento de Pearson à mão utilizando a fórmula.

Os dados bivariados são dados em que duas variáveis numéricas ou quantitativas são emparelhadas de forma única entre os sujeitos de uma experiência. Suponha, por exemplo, que temos 𝑛 pessoas numa amostra e medimos as suas alturas e os seus pesos. Para cada pessoa ou sujeito, temos um único par de medições. Se chamarmos 𝑋 a altura em metros e 𝑌 ao peso em quilogramas, o par de medições para cada sujeito ou pessoa dar-nos-á um ponto de dados no nosso conjunto de dados bivariados. Agora, suponha que gostaríamos de saber se há uma relação ou correlação entre a altura e o peso de uma pessoa. Para nos dar uma ideia, primeiro representamos os nossos dados num gráfico de dispersão. E se descobrirmos que os nossos dados seguem um padrão linear, podemos dizer que há uma correlação linear entre 𝑋 e 𝑌 ou, neste caso, altura e peso.

É importante lembrar, porém, que ao observar a correlação, não estamos a dizer que uma mudança numa variável provoque uma mudança na outra variável. Estamos simplesmente a descrever a relação entre as variáveis. E um gráfico de dispersão pode dar-nos algumas informações acerca dos nossos dados. Podemos ver neste gráfico de dispersão, por exemplo, que alguém que é bastante alto pode ser relativamente pesado. Se houver correlação entre as nossas variáveis, o gráfico de dispersão pode dizer-nos a direção da nossa correlação. Se os nossos valores de 𝑋 e 𝑌 aumentam juntos, dizemos que temos correlação positiva ou direta. E se, à medida que os valores de 𝑋 aumentam, os valores de 𝑌 diminuem, dizemos que temos correlação negativa ou inversa.

Se o nosso gráfico de dispersão não indicar nenhum padrão, não temos correlação. E se tivermos uma relação não linear entre 𝑋 e 𝑌, é claro que não há correlação linear. Também podemos dizer, a partir de um gráfico de dispersão, o quão forte é a relação linear pela proximidade dos pontos ao padrão linear. Então, por exemplo, no diagrama à esquerda, onde os pontos seguem perto um padrão linear, dizemos que a correlação entre 𝑋 e 𝑌 é muito forte, enquanto os dados no diagrama à direita estão vagamente dispersos do padrão linear. E diríamos que esta é uma correlação linear direta fraca ou moderada.

Portanto, a partir dos nossos diagramas de dispersão, temos uma ideia da direção e da força da correlação. Mas como somos matemáticos, gostaríamos de algo um pouco mais preciso para medir as nossas relações. E é aí que entra o coeficiente de correlação. Esta ideia foi desenvolvida por um matemático inglês chamado Karl Pearson e, portanto, é conhecida como coeficiente de correlação de Pearson ou coeficiente de correlação momento-produto de Pearson. É denotado por 𝑟 índice 𝑥𝑦 ou simplesmente 𝑟. 𝑟 assume valores de menos um a mais um. E quanto mais próximo estiver de um positivo ou negativo, mais forte será a relação ou correlação linear. Vejamos agora o nosso primeiro exemplo em que estimamos o coeficiente de correlação de Pearson a partir de um gráfico de dispersão.

Qual é o valor mais provável do coeficiente de correlação produto-momento para os dados apresentados no diagrama? É (A) menos 0.58, (B) zero, (C) menos 0.94, (D) 0.78 ou (E) 0.37?

Ao estimar o coeficiente de correlação de Pearson a partir de um gráfico de dispersão, observamos duas coisas. A primeira é a direção do padrão linear, que no nosso caso é do canto superior esquerdo para o inferior direito. A segunda coisa é a dispersão dos pontos de dados em torno de uma possível reta de regressão. Ou seja, o quão próximos os nossos pontos de dados estão de uma reta de regressão potencial. Vamos considerar primeiro a direção da relação linear. De um modo geral, sabemos que se o nosso padrão linear for do canto inferior esquerdo ao canto superior direito, então temos correlação linear direta ou positiva. Por outro lado, se os nossos dados seguirem um padrão linear do canto superior esquerdo ao canto inferior direito, dizemos que os nossos dados tem correlação negativa ou inversa.

O coeficiente de correlação produto-momento para dados com correlação direta ou positiva assume valores entre zero e um, enquanto se os nossos dados tiverem correlação negativa ou inversa, o coeficiente estará entre menos um e zero. Com os nossos dados, o padrão linear é do canto superior esquerdo ao canto inferior direito. Portanto, os nossos dados correspondem ao segundo caso, correlação negativa ou inversa. O nosso coeficiente deve estar entre menos um e zero. Isto significa que podemos eliminar a opção (D) e a opção (E), pois ambas são positivas. Estabelecemos que a direção da nossa correlação é negativa.

Então, agora, vamos ver a dispersão dos dados sobre uma possível reta de regressão. Sabemos que quanto maior a dispersão de uma possível reta de regressão, mais fraca será a correlação. E quanto mais próximos os dados estiverem de uma potencial reta de regressão, mais forte será a correlação. O coeficiente de correlação produto-momento assume valores entre um negativo e um positivo. E quanto mais próximo o coeficiente for de um mais ou menos um, mais forte será a correlação. Por outro lado, quanto mais próximo de zero o coeficiente de correlação, mais fraca é a correlação. No gráfico de dados fornecido, a maioria dos pontos está muito próxima de uma possível reta de regressão. E recordando que o nosso coeficiente é negativo, isto significa que o nosso coeficiente deve estar próximo de menos um. Certamente podemos eliminar a opção (B), pois sabemos que um coeficiente de correlação de zero significa nenhuma correlação.

Então, ficamos com as opções (A) e (C). A opção (A), com um valor de menos 0,58, indicaria uma correlação moderada. Isto porque está a meio caminho entre zero e menos um. Portanto, como a nossa correlação é muito forte, podemos eliminar a opção (A). A opção (C) é a mais próxima de menos, com um valor de menos 0.94. Portanto, o coeficiente de correlação produto-momento mais provável para os dados apresentados é a opção (C), com um valor de menos 0.94.

É importante notar também que, se todos os pontos de dados estiverem exatamente na reta, temos uma correlação direta perfeita ou uma correlação linear positiva ou inversa perfeita ou uma correlação linear negativa. Se tivermos correlação direta perfeita, o coeficiente 𝑟 será igual a um. E com correlação inversa perfeita, o coeficiente é igual a um negativo. Vamos agora ver alguns exemplos em que interpretaremos diferentes valores do coeficiente de correlação de Pearson.

Qual dos seguintes coeficientes de correlação indica a correlação inversa mais fraca? É a opção (A) menos 0.48, opção (B) menos 0.22, opção (C) menos 0.75 ou opção (D) menos 0.83?

Temos quatro coeficientes de correlação e queremos determinar qual deles indica a correlação inversa mais fraca. Sabemos que o coeficiente de correlação de Pearson assume valores entre menos um e mais um. E sabemos que se o valor estiver entre menos um e zero, temos correlação inversa ou negativa. Portanto, todas as opções fornecidas representam uma relação inversa. Se o coeficiente estiver entre zero e mais um, a nossa correlação será positiva ou direta. Também sabemos que quanto mais próximo o coeficiente estiver de um positivo ou negativo, mais forte será a correlação e que quanto mais próximo o coeficiente estiver de zero, mais fraca será a correlação. E o que isto significa é que quanto maior omódulo do coeficiente de correlação, mais forte será a correlação.

Portanto, agora, se olharmos para os módulos das nossas quatro opções, o módulo, ou seja, o valor absoluto, da opção (A) é 0.48. O módulo da opção (B) é 0.22. O módulo das opções (C) é 0.75. E o módulo da opção (D) é 0.83. Lembre-se, estamos à procura do coeficiente de correlação que indica a correlação mais fraca. Isto significa o coeficiente de correlação com o menor módulo, ou seja, cujo módulo está mais próximo de zero. Vemos que a nossa opção (B) tem uma intensidade mais próxima de zero, e isto indica que (B) representa a correlação mais fraca. A nossa resposta é, portanto, (B) com um valor de menos 0.22.

Vamos agora considerar outro exemplo.

Qual das opções a seguir é a interpretação mais adequada de um coeficiente de correlação produto-momento de 0.8? É (A) uma correlação linear negativa forte, (B) uma correlação linear negativa moderada, (C) uma correlação linear positiva moderada, (D) uma correlação linear positiva forte ou (E) nenhuma correlação?

Sabemos que o coeficiente de correlação produto-momento de Pearson 𝑟 índice 𝑥𝑦 ou apenas 𝑟 assume valores entre menos um e mais um. Também sabemos que se 𝑟 for menor que zero e maior ou igual a menos um, então temos correlação inversa ou negativa e que se 𝑟 for maior do que zero e menor ou igual a mais um, temos correlação direta ou positiva. Perguntam-nos qual das opções dadas é a interpretação mais apropriada de um coeficiente de correlação produto-momento com um valor de 0.8. Como este valor é positivo, sabemos que temos correlação direta ou positiva. Isto significa que podemos eliminar qualquer uma das nossas opções que especifiquem correlação negativa. Portanto, podemos eliminar as opções (A) e (B), pois ambas especificam uma correlação negativa. Também podemos eliminar a opção (E), pois nenhuma correlação nos daria um coeficiente de correlação de zero. E o nosso coeficiente de correlação é diferente de zero; é 0.8.

Isto deixa-nos com as opções (C) e (D), uma correlação linear positiva moderada ou uma correlação linear positiva forte. Se considerarmos o módulo do coeficiente de correlação, quanto mais forte for a correlação, mais próximo será o módulo de um. E quanto mais próximo o módulo estiver de zero, mais fraca será a correlação. Isto significa que aproximadamente a meio caminho entre zero e mais um ou negativo, temos uma correlação moderada. Como o coeficiente dado é 0.8, que está próximo de mais um, podemos dizer que isto representa uma correlação positiva forte. E, portanto, a interpretação mais adequada de um coeficiente de correlação momento-produto de 0.8 é a opção (D), uma correlação linear positiva forte.

Então, agora que sabemos como interpretar o coeficiente de correlação produto-momento de Pearson, vamos ver como podemos realmente calculá-lo. Existem algumas maneiras equivalentes de escrever a fórmula para o coeficiente de correlação momento-produto de Pearson. E o que vamos utilizar está apresentado. Pode, no entanto, ver o coeficiente de correlação escrito como 𝑆 índice 𝑥𝑦 sobre a raiz quadrada de 𝑆 índice 𝑥𝑥 multiplicado por 𝑆 índice 𝑦𝑦, onde os termos são os apresentados. Olhando agora para a nossa fórmula, lembramos que Σ maiúsculo representa a soma, 𝑛 representa o número de pares de dados e 𝑥𝑦 representa o produto dos valores de 𝑥 e 𝑦 dentro de cada par de dados. Vejamos um exemplo de como utilizar a fórmula quando temos as estatísticas de resumo.

Um conjunto de dados pode ser resumido do seguinte. 𝑛 é igual a oito. A soma dos valores de 𝑥 é 78. A soma dos valores de 𝑦 é menos 73. A soma dos produtos 𝑥𝑦 é menos 752. A soma dos 𝑥 quadrados é 792. A soma dos valores de 𝑦 ao quadrado é 735. Calcule o coeficiente de correlação produto-momento deste conjunto de dados, dando a sua resposta com três casas decimais.

Temos as estatísticas resumidas de um conjunto de dados bivariados que podemos utilizar para calcular o coeficiente de correlação momento-produto de Pearson. Na fórmula apresentada, temos um valor para 𝑛, que é igual a oito. E este é o número de pares de dados no nosso conjunto de dados. É-nos dada a soma dos valores de 𝑥, e isso é 78, a soma dos valores de 𝑦, que é menos 73, a soma dos produtos 𝑥𝑦, que é menos 752, a soma dos valores de 𝑥 ao quadrado, que é 792, e a soma dos valores de 𝑦 ao quadrado, que é 735. Portanto, tudo o que precisamos para completar a nossa fórmula é a soma dos valores de 𝑥 ao quadrado e a soma dos valores de 𝑦 ao quadrado.

A soma dos nossos valores de 𝑥 ao quadrado é 78 ao quadrado. E isto é 6084. A soma dos valores de 𝑦 ao quadrado é 73 ao quadrado negativo, que é 5329. E adicionando-os à nossa lista e dando algum espaço, podemos agora substituir as nossas estatísticas resumidas na nossa fórmula do coeficiente de correlação. Temos o coeficiente de correlação produto-momento 𝑟 índice 𝑥𝑦 como apresentado. E calculando o nosso numerador e as duas raízes quadradas no denominador, temos menos 322 dividido pela raiz quadrada de 252 multiplicada pela raiz quadrada de 551. E isto é calculado como menos 0.864 com três casas decimais.

O coeficiente de correlação deve estar entre menos um e mais um. E no nosso caso, isto é verdade. E, de facto, como o nosso coeficiente de correlação é próximo de menos um, podemos interpretar isto como uma correlação negativa forte. O coeficiente de correlação produto-momento para o conjunto de dados resumido pelas estatísticas fornecidas é de menos 0.864 com três casas decimais. Observe que também pode ver o coeficiente de correlação escrito simplesmente como 𝑟.

No nosso exemplo final, calcularemos o coeficiente de correlação de Pearson do zero.

A tabela de dados mostra os resultados do salto em altura e do salto em comprimento obtidos por 15 atletas do heptatlo feminino nas Olimpíadas do Rio de 2016. Calcule, arredondado aos milhares, o valor do coeficiente de correlação produto-momento entre os resultados do salto em comprimento e do salto em altura. O que é que este coeficiente de correlação acerca sobre a relação entre os resultados do salto em comprimento e do salto em altura?

Temos uma tabela de valores para duas variáveis, pontuações de salto em comprimento e salto em altura para 15 atletas femininas nas Olimpíadas do Rio. Estes são dados bivariados, o que significa que duas medições são registadas para cada atleta individualmente, a que distância saltou no salto em distância e a que altura saltou no salto em altura. Assim, por exemplo, o atleta um saltou 5,51 metros no salto em comprimento e 1,65 metros no salto em altura. E esta questão tem duas partes. Primeiro, pedem-nos para calcular o coeficiente de correlação produto-momento e, em seguida, pedem-nos uma interpretação deste valor.

Para a primeira parte da questão, vamos utilizar a fórmula apresentada para o coeficiente de correlação 𝑟 índice 𝑥𝑦 que pode ver escrito como 𝑟. E para utilizar esta fórmula, lembramos que o símbolo Σ maiúsculo significa a soma, também que 𝑛 é o número de pontos de dados ou pares. No nosso caso, temos 15 atletas, então 𝑛 é igual a 15. Então, vamos começar por chamar o salto em comprimento em metros de variável 𝑋 e o salto em altura em metros de variável 𝑌. Para calcular o nosso coeficiente, precisaremos das várias expressões dentro da fórmula. Precisamos dos produtos 𝑥𝑦, dos valores de 𝑥 ao quadrado e dos valores de 𝑦 ao quadrado. E assim, adicionamos algumas linhas à nossa tabela para nos ajudar com os nossos cálculos. Também adicionamos uma coluna ao final da nossa tabela para as nossas somas.

Então, vamos primeiro calcular os produtos 𝑥𝑦 para cada atleta. Para o nosso primeiro atleta, o produto é 5.51 multiplicado por 1.65. E isto é igual a 9.0915. E assim colocamos isto na primeira célula vazia da nossa nova linha para 𝑥𝑦. Da mesma forma, para o nosso segundo atleta, temos 5.72 multiplicado por 1.77, que é 10.1244. E isto vai para a segunda célula da linha 𝑥𝑦. E assim continuamos desta maneira, a preencher o resto da linha, onde nos restringimos a três casas decimais por uma questão de espaço. Na segunda nova linha da nossa tabela, queremos os valores de 𝑥 ao quadrado. Então, por exemplo, a nossa primeira entrada será 5.51 ao quadrado, e isto é 30.3601. Colocando isto na nossa tabela, restringimo-nos agora a duas casas decimais por uma questão de espaço. E colocando ao quadrado o restante dos nossos valores de 𝑥, podemos preencher a tabela como se mostra.

Em seguida, pegamos nos quadrados dos valores do salto em altura, que são os valores de 𝑦 ao quadrado, e preenchemos a nossa tabela como apresentado. Então, agora vamos preencher a nossa coluna de somas, onede a soma dos 𝑋, por exemplo, é a soma das pontuações do salto em distância. E isto é igual a 91.43. A soma de todas as pontuações de salto em altura, que é a soma dos valores de 𝑌, é 27.21. A soma dos produtos 𝑥𝑦 é 166.1151; isto é, com quatro casas decimais. A soma dos valores de 𝑥 ao quadrado é 558.4923. E a soma dos quadrados dos 𝑦 é 49.4361. Portanto, na nossa coluna de somas, temos a soma dos valores de 𝑋, a soma dos valores de 𝑌, a soma do produto 𝑥𝑦, a soma dos valores de 𝑥 ao quadrado e a soma dos valores de 𝑦 ao quadrado. Agora, temos tudo o que precisamos para a nossa fórmula.

Com 𝑛 é 15, este é o número de atletas, e todas as somas da nossa tabela, o nosso coeficiente de correlação pode ser calculado como se mostra. Utilizando as nossas calculadoras, podemos calcular o numerador e o denominador como se mostra. Portanto, temos 3.9162 dividido por 4.5567, cada um com quatro casas decimais, que é 0.8594 a quatro casas decimais. Então, com três casas decimais, ou seja, arredondado às milésimas, o valor do coeficiente de correlação produto-momento entre os resultados do salto em comprimento e do salto em altura é 0.859.

Para a segunda parte da questão relativa à relação entre os resultados do salto em comprimento e do salto em altura, o nosso coeficiente está muito próximo de mais um. Isto significa que há uma forte correlação positiva, ou seja, direta e linear entre os resultados do salto em distância e do salto em altura para as mulheres atletas das Olimpíadas do Rio.

Vamos agora completar este vídeo lembrando-nos de alguns dos pontos principais que abordámos. Sabemos que correlação não significa causalidade. Isto indica simplesmente que existe uma relação linear entre duas variáveis e dá-nos uma ideia da força e da direção dessa relação. Sabemos que o coeficiente de correlação produto-momento se aplica a dados numéricos bivariados. O coeficiente assume valores entre menos e mais um. Quanto mais próximo 𝑟 estiver de menos ou mais um, mais forte será a correlação. E, inversamente, quanto mais próximo 𝑟 de zero, mais fraca é a correlação entre as duas variáveis.

E a seguir, se o coeficiente de correlação for igual a zero, não haverá correlação linear. Um coeficiente de correlação positivo indica uma relação linear direta ou positiva entre as variáveis, enquanto um coeficiente negativo indica uma correlação linear inversa ou negativa. E para realmente calcular o coeficiente de correlação produto-momento de Pearson para um conjunto de dados bivariados, utilizámos a fórmula apresentada em que o coeficiente pode ser identificado como 𝑟 índice 𝑥𝑦 ou simplesmente 𝑟.

Join Nagwa Classes

Attend live sessions on Nagwa Classes to boost your learning with guidance and advice from an expert teacher!

  • Interactive Sessions
  • Chat & Messaging
  • Realistic Exam Questions

Nagwa uses cookies to ensure you get the best experience on our website. Learn more about our Privacy Policy