O portal foi desativado. Entre em contato com o administrador do portal.

Vídeo da aula: Outliers de um conjunto de dados Matemática • 8º Ano

Neste vídeo, aprenderemos como identificar outliers de um conjunto de dados.

17:46

Transcrição do vídeo

Neste vídeo, aprenderemos como identificar outliers de um conjunto de dados. Primeiro, veremos como faremos isto a partir de um gráfico e, em seguida, consideraremos como calcularemos isto matematicamente.

Às vezes, num conjunto de dados, existem pontos de dados cujos valores são muito maiores ou muito menores do que o grupo principal de dados. E chamamos estes pontos de dados de outliers ou valores extremos. Vamos considerar o gráfico embaixo. A maioria dos pontos de dados fica entre 15 e 60. E isto significa que este dado 120 será considerado um outlier porque é substancialmente maior do que o resto dos dados.

Às vezes, os outliers são um dados genuínos. Por exemplo, existem pessoas que são genuinamente muito mais altas do que a altura média de um ser humano. E é importante considerarmos outliers ao analisar um conjunto de dados, uma vez que valores extremos podem levar-nos a conclusões falsas sobre o nosso conjunto de dados.

Por exemplo, suponha que seja um designer de assentos de avião. Para desenhar os assentos de passageiros, precisa de saber a altura média de uma pessoa adulta. Se utilizar a média das alturas na imagem acima, a altura da pessoa muito alta tornaria a média geral maior do que deveria. O que significa que o assento que desenharia seria maior do que o necessário e o seu chefe não ficaria feliz. Isto significaria que haveria menos assentos, o que significa menos passageiros, o que significa menos lucro.

Novamente, este outlier é um dado genuíno. Mas há casos em que estamos a analisar um conjunto de dados em que precisamos de remover valores extremos para não obtermos conclusões falsas. Embora alguns outliers sejam dados genuínos, às vezes os outliers indicam-nos um erro ou uma deturpação. E é bom verificar se houve um erro no registo dos dados destes pontos. No nosso próximo exemplo, veremos como podemos identificar um potencial outlier em diferentes gráficos.

A tabelaemabaixo mostra o número de mensagens trocadas nos smartphones de 14 alunos ao longo de um único mês. Os dados também foram representados num gráfico de pontos. Existem outliers neste conjunto de dados? Em caso afirmativo, especifique o valor ou os valores destes outliers.

Se nos deram apenas uma tabela de dados, o outlier nem sempre é aparente. Uma vantagem de um gráfico como este é que podemos ver os pontos de dados em relação uns aos outros. Podemos ver muito rapidamente que temos um ponto de dados que está longe da maioria dos outros. Os pontos de dados aqui ficam principalmente entre 2800 e 5500, com apenas um ponto fora deste intervalo. No gráfico, podemos identificar isto como o ponto de dados 9754. Nestes dados, há um outlier e é 9754.

Esta questão está apenas a pedir-nos para identificar o outlier. Precisamos de observar que, se estivéssemos a analisar estes dados, teríamos que decidir se este ponto deveria ser incluído na nossa análise ou não. Podemos perguntar-nos algo como: é viável um aluno trocar 9754 mensagens num mês ou foi cometido um erro no registo destes dados? Depois de responder a algumas questões como esta, poderíamos tomar uma decisão final sobre se incluiríamos ou não este valor na análise final. De qualquer forma, é correto identificá-lo como um outlier.

No nosso próximo exemplo, consideraremos um tipo diferente de diagrama.

Qual das afirmações está correta para a distribuição representada pelo diagrama? (A) A distribuição é simétrica. (B) A distribuição tem um outlier em seis. (C) A distribuição tem uma lacuna de 21 a 29. (D) A distribuição tem um cluster de sete a 20. Ou (E) a distribuição tem um pico em 22.

Para descobrir qual deles está correto, vamos considerá-las uma de cada vez. Primeiro, a distribuição é simétrica. Para descobrir se esta distribuição é simétrica, pode esboçar uma linha sobre a distribuição. Esta imagem não é simétrica. O seis está a esticar a imagem. E assim, não podemos dizer que a distribuição seja simétrica.

Agora, vamos considerar a afirmação (B) de que a distribuição tem um outlier em seis. Para considerar um seis como um outlier, queremos observar a dispersão dos pontos de dados. Todos os outros dados estão entre 21 e 29. A distância de 6 a 21 é 15. Podemos dizer que o ponto seis dos dados está bem distante do resto dos dados. E, portanto, é uma afirmação verdadeira dizer que esta distribuição tem um outlier em seis. Mas queremos ir em frente e verificar as outras três afirmações.

A distribuição tem uma lacuna de 21 a 29. Como a maioria dos pontos fica entre 21 e 29, não há lacuna aí. A distribuição da opção (D) tem um grupo de sete a 20. Na verdade, não há dados de sete a 20, o que significa que não pode haver um cluster ali. E, finalmente, a opção (E) a distribuição tem um pico em 22. Se olharmos atentamente para 22, há apenas um ponto de dados lá. Observando o nosso diagrama, vemos que o pico acontece em 26, o que significa que a opção (E) não está correta, deixando-nos com apenas uma afirmação verdadeira. A distribuição tem um outlier em seis.

Aqui está outro conjunto de dados a ser considerado.

Os dados na tabela embaixo são a velocidade média registada em milhas por hora no primeiro saque dos 10 melhores jogadores de ténis do mundo. Para a parte (1), calcule a velocidade média do primeiro serviço em milhas por hora. A parte (3), comparando as médias que determinou nas duas primeiras partes da questão, tire uma conclusão sobre a validade do ponto de dados de 1025 milhas por hora.

Começando na parte (1), precisamos de calcular a velocidade média, a velocidade média destes 10 jogadores. Para calcular a velocidade média, precisaremos somar todas as velocidades e dividir esse valor pelo número de jogadores. Isto significa que somaremos todos os 10 valores da tabela e depois dividiremos por 10. Quando fazemos isso, obtemos 2.107 sobre 10, que se torna 210.7 milhas por hora. Se considerarmos todos os 10 pontos de dados nesta tabela e fizermos a média deles, chegaremos a uma média de 210.7 milhas por hora. Esta é a parte (1).

Na parte (2), queremos fazer a mesma coisa, mas queremos ignorar este ponto de dados 1025. Ao ignorar este dado, agora estamos a fazer a média de nove dos jogadores. Quando somamos os nove restantes, obtemos 1082 sobre nove. Quando dividimos isto, obtemos 120,2 milhas por hora, arredondadas com uma casa decimal.

Para a parte (3), precisaremos de comparar estes dois valores. Quando incluímos 1025, descobrimos que a velocidade média era de 210,7 milhas por hora. Mas quando olhamos para a tabela, 210 é significativamente maior do que todos os outros nove valores. Além de 1025, que também está substancialmente longe de 210, todos os outros valores são significativamente menores. 210 não é uma representação muito válida das médias destas velocidades.

Se pensarmos na segunda média em que ignoramos o 1025, obtivemos uma média de 120.2. Olhando para a nossa tabela, quatro dos valores estão abaixo de 120.2 e cinco dos valores estão acima de 120.2. Mas todos os nove valores estão muito próximos de 120.2. E assim, poderemos dizer que 120.2 é uma representação muito mais justa da média. Mas também vale a pena considerar, neste momento, como este valor de 1025 entrou na nossa tabela?

É realista pensar que o servidor de ténis mais rápido do mundo é 10 vezes mais rápido do que qualquer outro no mundo? No mínimo, dizemos que 1025 é um outlier, mas uma conclusão razoável é que deve, de facto, ser um erro na tabela. O nosso resumo da parte (3) pode dizer que 1025 é um outlier para este conjunto de dados e provavelmente um erro.

Nos três últimos exemplos, resolvemos por observação os dados num gráfico para descobrir se havia ou não outliers. Mas também podemos confirmar por cálculo se um ponto é ou não um outlier. Vamos ver como faremos isso agora.

Para fazer estes cálculos, precisaremos da amplitude interquartil, do primeiro e do terceiro quartis no nosso cálculo. Então, primeiro, vamos lembrar-nos do que são.

A amplitude interquartil, ou AIQ, de um conjunto de dados é uma medida de como os valores dos dados estão dispersos do centro do conjunto de dados. O primeiro quartil ou quartil inferior, 𝑄 um, marca o centro da metade inferior do conjunto de dados. Portanto, 25 % dos dados ficam abaixo de 𝑄 um e 75 % dos dados ficam acima de 𝑄 um. O segundo quartil, 𝑄 dois, é a mediana e marca o meio do conjunto de dados. 50 % dos dados ficam abaixo de 𝑄 dois e 50 % dos dados ficam acima de 𝑄 dois.

E o terceiro quartil ou quartil superior, 𝑄 três, marca o centro da metade superior do conjunto de dados. 75 % dos dados estão abaixo de 𝑄 três e 25 % acima. E a amplitude interquartil é igual ao terceiro quartil menos o primeiro quartil, 𝑄 três menos 𝑄 um. Representa uma medida dos 50 por cento do meio dos dados.

Utilizando estas informações, podemos descobrir como identificar outliers num conjunto de dados. Para identificar outliers por cálculos, um dado é considerado um outlier se for maior que o quartil três mais 1.5 a amplitude interquartil. Ou se for menor que o primeiro quartil menos 1.5 vezes a amplitude interquartil. Às vezes, isto chama-se de regra 1.5 vezes AIQ. Então, vamos ver um exemplo de um conjunto de dados onde podemos utilizar esta regra de 1.5 vezes AIQ.

O número de jogos ganhos por 12 times na liga nacional é 11, cinco, seis, seis, nove, 10, 19, 14, 11, nove, nove e seis. É verdadeiro ou falso que 19 é um outlier dos dados?

Para identificar se 19 é um outlier ou não, precisaremos da amplitude interquartil. E para fazer isto, teremos que identificar o quartil um e o quartil três. Isto significa que o nosso primeiro passo é colocar os dados por ordem de tamanho. Agora, temos os nossos 12 pontos de dados por ordem de tamanho.

Sabemos que a mediana virá no meio destes 12 pontos de dados e que a mediana é o quartil dois. 𝑄 um é o meio da metade inferior dos dados. Como existem seis pontos de dados abaixo da mediana, 𝑄 um estará localizado entre o terceiro e o quarto. E da mesma forma, 𝑄 três é o meio da metade superior dos dados. Existem seis pontos acima do quartil dois. E isso significa que 𝑄 três estarão localizados no meio deles. Estará entre o nono e o 10.º valor.

Como o terceiro e o quarto valores são seis, chamaríamos o quartil um de seis. E como o nono e o 10.º valores são iguais, o quartil três é igual a 11. A amplitude interquartil é igual a 𝑄 três menos 𝑄 um. Para nós, isto é 11 menos seis. E assim, temos um AIQ de cinco. Para descobrir se 19 é, de facto, um outlier, utilizaremos a regra de 1.5 vezes AIQ. Esta regra diz -nos que um valor é um outlier se for maior que 𝑄 três mais 1.5 vezes o AIQ ou menor que 𝑄 um menos 1.5 vezes o AIQ.

Como estamos a olhar para um dado que está acima de 𝑄 três, procuraremos a opção maior do que. E isto significa que queremos saber se é 19 maior do que o quartil três mais 1.5 vezes a amplitude interquartil. O IQR é cinco. 𝑄 três é 11. 1.5 vezes cinco é 7.5, mais 11 é igual a 18.5. 19 é maior do que 18.5. E assim, podemos dizer que é uma afirmação verdadeira de que 19 é um outlier deste conjunto de dados.

Vamos agora ver um exemplo final.

A tabela mostra as alturas em metros dos edifícios mais altos de uma cidade. Se houver outliers nos dados, determine os seus valores.

Como acabam de nos dar uma tabela de dados e queremos descobrir se há outliers, podemos utilizar a regra de 1.5 vezes AIQ. Um outlier 𝑥 seria menor do que 𝑄 um menos 1.5 vezes o AIQ ou, ou o outlier seria maior do que 𝑄 três mais 1.5 vezes o AIQ.

O nosso primeiro passo aqui é calcular a amplitude interquartil e determinar estes limites. E para fazer isto, a primeira coisa que fazemos é colocar os dados por ordem de tamanho. Também sabemos que cada quartil representa 25 % dos dados. Isto seria um quarto dos dados. Como temos 12 alturas de construção, podemos dividir 12 por quatro, que é três. E isto significa que o nosso primeiro quartil ocorrerá após o terceiro ponto de dados, o nosso segundo quartil após o sexto ponto de dados e o nosso terceiro quartil após o nono ponto de dados.

Como o quartil um está entre o terceiro e o quarto dados, precisamos de calcular a média do terceiro e quarto dados para determinar o seu valor. 𝑄 um é igual a 561 mais 607 dividido por dois, que é 584. Precisamos de fazer a mesma coisa para 𝑄 três. Calculamos a média do nono e do 10.º dados, 714 mais 725 dividido por dois, o que é 719.5. A amplitude interquartil é 𝑄 três menos 𝑄 um, para nós, 719.5 menos 584, o que é igual a 135.5.

Vamos fazer uma lista do que sabemos. 𝑄 um é 584. 𝑄 três é 719.5. E o nosso AIQ é 135.5. Agora estamos prontos para voltar e utilizar estas regras para calcular os limites superior e inferior dos valores discrepantes. O limite inferior para outliers será 𝑥 menor do que 𝑄 um menos 1.5 vezes o AIQ. E o limite superior para outliers será tal que 𝑥 seja maior do que 𝑄 três mais 1.5 vezes o AIQ. Vamos inserir os valores que temos, 𝑄 um, 584 e o AIQ, 135.5. Quando fazemos este cálculo, obtemos 380.75.

E isto significa que, para que haja um outlier na extremidade inferior, é necessário que seja menor do que 380.75. O nosso menor dado é 502. E isto significa que não temos um outlier na extremidade inferior. Vamos verificar a extremidade superior. Insira os valores de 𝑄 três e o AIQ. E descobrimos que o limite superior para outliers é 922.75. Para que haja um valor discrepante na extremidade superior, ele precisará ser maior do que 922.75. O nosso maior dado é 901, que é menor do que este valor. E como nenhum dos nossos valores dos dados é menor do que o limite inferior para os outliers ou maior do que o limite superior para outliers, não há outliers neste conjunto de dados.

Podemos resumir com alguns pontos-chave. Um outlier ou extremo num conjunto de dados é um dado cujo valor é muito menor ou muito maior do que a maioria do conjunto de dados. Matematicamente, calculamos outliers com a regra 1.5 vezes AIQ. Um dados é classificado como um outlier se for menor do que 𝑄 um menos 1.5 vezes AIQ ou maior do que 𝑄 três mais 1.5 vezes AIQ. E, finalmente, potenciais outliers podem ser identificados utilizando um gráfico do conjunto de dados.

A Nagwa usa cookies para garantir que você tenha a melhor experiência em nosso site. Saiba mais sobre nossa Política de privacidade.