Transcripción del vídeo
En este video, vamos a aprender cómo determinar los valores atípicos o anómalos de un conjunto de datos. Primero vamos a ver cómo determinarlos a partir de un gráfico y luego consideraremos cómo los podemos calcular algebraicamente.
A veces, en un conjunto de datos, hay datos cuyos valores son mucho más grandes o mucho más pequeños que el grupo principal de datos. Y a estos datos los llamamos valores atípicos o valores anómalos. Consideremos el siguiente gráfico. La mayoría de los valores se encuentran entre 15 y 60. Y eso significa que este valor de 120 se puede considerar un valor atípico porque es sustancialmente más grande que el resto de los puntos de datos.
Sin embargo, a veces, los valores atípicos son datos reales. Por ejemplo, hay personas que son realmente mucho más altas que la estatura promedio de los seres humanos. Y es importante que tengamos en cuenta los valores atípicos al analizar un conjunto de datos, ya que los valores anómalos pueden llevarnos a conclusiones falsas sobre nuestro conjunto de datos.
Por ejemplo, supongamos que eres un diseñador de asientos de avión. Para diseñar los asientos de los pasajeros, necesitas saber la estatura promedio de una persona adulta. Si usas el promedio de las estaturas en la imagen de arriba, la estatura de una persona muy alta hará que la media general sea más grande de lo que debería ser. Lo que significa que el asiento diseñado será más grande de lo necesario y tu jefe no estará contento. Ya que esto significaría menos asientos, menos pasajeros, y por consiguiente menos ganancias.
Y como ya hemos dicho, este valor atípico es un dato real. Pero hay casos en los que, al analizar un conjunto de datos, necesitamos eliminar los valores anómalos para no obtener conclusiones falsas. Si bien, a veces, los valores atípicos son datos genuinos, en otros casos los valores atípicos nos indican un error o una tergiversación. Y es bueno verificar y ver si ha habido un error al anotar los datos en estos puntos. En nuestro siguiente ejemplo, vamos a ver cómo podemos detectar un valor atípico potencial en diferentes gráficos.
La siguiente tabla muestra la cantidad de mensajes intercambiados por teléfono por 14 estudiantes durante un mes. Los datos también han sido representados en un diagrama de puntos. ¿Hay valores atípicos en este conjunto de datos? Si es así, especifica el valor o valores de estos valores atípicos.
Si solo nos dan una tabla de datos, el valor anómalo no siempre es evidente. Una de las ventajas de un gráfico como este es que podemos ver los datos en relación con los demás. Podemos ver muy rápidamente que tenemos un dato que está lejos de la mayoría de los demás. Los datos aquí están principalmente entre 2800 y 5500 con solo un punto fuera de este rango. En el gráfico, podemos identificar esto como el valor 9754. En estos datos, hay un valor atípico, y es 9754.
Esta cuestión solo nos pide identificar el valor atípico. Debemos tener en cuenta que, si estuviéramos analizando estos datos, tendríamos que decidir si este punto debe incluirse en nuestro análisis o no. Podríamos preguntarnos algo así como: ¿Es razonable pensar que un alumno ha intercambiado 9754 mensajes en un mes o se ha cometido un error al recoger estos datos? Una vez que hayamos respondido algunas preguntas como esa, podremos tomar una decisión final sobre si incluir o no este valor en el análisis final. De cualquier manera, es correcto considerarlo como un valor anómalo.
En nuestro siguiente ejemplo, vamos a ver un tipo diferente de diagrama.
¿Cuál de las siguientes afirmaciones es correcta para la distribución representada por el diagrama? (A) La distribución es simétrica. (B) La distribución tiene un valor atípico en seis. (C) La distribución tiene una brecha de 21 a 29. (D) La distribución tiene un racimo de datos de siete a 20. O (E) la distribución tiene un pico en 22.
Para determinar cuál de estos es el correcto, vamos a considerarlos uno por uno. Primero, la distribución es simétrica. Para determinar si esta distribución es simétrica, debes tratar de dibujar un eje de simetría en la distribución. Esta imagen no es simétrica. Por ejemplo, el seis no tiene un valor simétrico. Por tanto, no podemos decir que la distribución es simétrica.
Consideremos la afirmación (B) la distribución tiene un valor atípico en seis. Para poder considerar el seis como un dato atípico, debemos ver la extensión de los datos. Todos los demás datos se encuentran entre 21 y 29. La distancia de 6 a 21 es 15. Podemos decir que el seis está muy alejado del resto de los datos. Y, por lo tanto, es adecuado decir que esta distribución tiene un valor atípico en seis. Pero queremos seguir adelante y verificar las otras tres afirmaciones.
La distribución tiene una brecha de 21 a 29. Como la mayoría de los puntos están entre 21 y 29, no hay brecha allí. Opción (D) la distribución tiene un racimo de datos de siete a 20. De hecho, no hay puntos de datos del siete al 20, lo que significa que no puede haber un racimo allí. Y finalmente, la opción (E) la distribución tiene un pico en 22. Si miramos de cerca el 22, solo hay un dato allí. Si miramos todo nuestro diagrama, vemos que el pico ocurre en 26, lo que significa que la opción (E) no es correcta, dejándonos con solo una afirmación verdadera. La distribución tiene un valor atípico en seis.
Aquí hay otro conjunto de datos a considerar.
Los datos en la tabla a continuación corresponden a la velocidad promedio registrada en millas por hora del primer servicio de los 10 mejores tenistas del mundo. En la parte (1)y en la parte (2) nos piden calcular la velocidad media del primer servicio en millas por hora. En la parte (3), comparando las medias que hallamos en las dos primeras partes de la cuestión, tenemos que sacar una conclusión sobre la validez del valor de 1025 millas por hora.
Comenzando en la parte (1), necesitamos calcular la velocidad media, la velocidad media de estos 10 jugadores. Para calcular la velocidad media, necesitaremos sumar todas las velocidades y dividir ese valor por el número de jugadores. Esto significa que sumaremos los 10 valores de la tabla y luego dividiremos por 10. Cuando hacemos eso, obtenemos 2107 sobre 10, que luego se convierte en 210.7 millas por hora. Si consideramos los 10 puntos de datos en esta tabla y los promediamos, obtenemos un promedio de 210.7 millas por hora. Esa es la parte (1).
En la parte (2), queremos hacer lo mismo, pero queremos ignorar este dato de 1025. Al ignorar este dato, ahora solo estamos promediando nueve de los jugadores. Cuando operamos con estos nueve números, obtenemos 1082 sobre nueve. Cuando dividimos eso, obtenemos 120.2 millas por hora, redondeado a una cifra decimal.
Para la parte (3), necesitamos comparar estos dos valores. Cuando incluimos 1025, hallamos que la velocidad promedio era de 210.7 millas por hora. Pero cuando miramos la tabla, 210 es significativamente más alto que los otros nueve valores. Aparte del 1025, que también está sustancialmente lejos de 210, todos los demás valores son significativamente menores. 210 no es una representación muy válida de los promedios de estas velocidades.
Si pensamos en el segundo promedio donde ignoramos el 1025, hallamos un promedio de 120.2. Mirando nuestra tabla, cuatro de los valores están por debajo de 120.2 y cinco de los valores están por encima de 120.2. Y los nueve valores están muy cerca de 120.2. Por lo tanto, podemos decir que 120.2 es una representación mucho más apropiada de la media. Pero también vale la pena considerar, en este punto, ¿cómo llegó este valor de 1025 a nuestra tabla?
¿Es realista pensar que el tenista con el servicio más rápido del mundo es 10 veces más rápido que cualquier otro jugador del mundo? Como mínimo, podemos decir que 1025 es un valor anómalo, pero una conclusión razonable es que, de hecho, este dato es erróneo. Como resumen de la parte (3) podemos decir que 1025 es un valor atípico para este conjunto de datos y es probable que sea un error.
Nuestros tres ejemplos anteriores los hemos resuelto mirando los datos en un gráfico para averiguar si había valores atípicos o no. Pero también podemos determinar mediante cálculos numéricos si un valor es atípico o no. Veamos cómo se hace esto.
Para hacer estos cálculos, necesitaremos primero hallar el rango intercuartil, y los cuartiles inferior y superior. Primero, recordemos qué son estos valores.
El rango intercuartílico, o IQR, de un conjunto de datos es una medida de cómo los valores de los datos se distribuyen alrededor del centro del conjunto de datos. El primer cuartil o cuartil inferior, 𝑄 uno, marca el centro de la mitad inferior del conjunto de datos. Por lo tanto, el 25 por ciento de los datos se encuentra por debajo de 𝑄 uno y el 75 por ciento de los datos por encima de 𝑄 uno. El segundo cuartil, 𝑄 dos, es la mediana y marca la mitad del conjunto de datos. El 50 por ciento de los datos está por debajo de 𝑄 dos y el 50 por ciento de los datos está por encima de 𝑄 dos.
Y el tercer cuartil o cuartil superior, 𝑄 tres, marca el centro de la mitad superior del conjunto de datos. El 75 por ciento de los datos se encuentra por debajo de 𝑄 tres y el 25 por ciento por encima. Y el rango intercuartil es igual al cuartil superior menos el cuartil inferior, 𝑄 tres menos 𝑄 uno. Esta cantidad representa una medida de la dispersión del 50 por ciento medio de los datos.
Usando esta información, podemos descubrir cómo identificar valores atípicos en un conjunto de datos. Para identificar valores atípicos mediante operaciones numéricas, hay que saber, además, que un dato se considera un valor atípico si es mayor que el tercer cuartil más 1.5 veces el rango intercuartílico. O si es menor que el primer cuartil menos 1.5 veces el rango intercuartílico. A veces esto se llama la regla de 1.5 veces el RIC. Veamos un ejemplo de un conjunto de datos en el que podemos usar esta regla de 1.5 veces el RIC.
El número de partidos ganados por 12 equipos en la liga nacional es 11, cinco, seis, seis, nueve, 10, 19, 14, 11, nueve, nueve y seis. ¿Es cierto o falso que 19 es un valor atípico de los datos?
Para identificar si 19 es un valor atípico o no, necesitaremos calcular el rango intercuartil. Y para hacer eso, tendremos que identificar el primer cuartil y el tercer cuartil. Esto significa que nuestro primer paso es ordenar los datos según su tamaño. Ahora, tenemos nuestros 12 datos en orden de tamaño.
Sabemos que la mediana está en el centro de estos 12 valores y que la mediana es el segundo cuartil. 𝑄 uno es la mitad de la mitad inferior de los datos. Como hay seis datos por debajo de la mediana, 𝑄 uno se ubicará entre el tercero y el cuarto. Y de manera similar, 𝑄 tres es la mitad de la mitad superior de los datos. Hay seis puntos por encima del cuartil dos. Y eso significa que 𝑄 tres estará ubicado en el centro de esos. Estará entre el noveno y el décimo valor.
Debido a que el tercer valor y el cuarto valor son ambos seis, el primer cuartil es seis. Y como los valores noveno y décimo son iguales, el tercer cuartil es 11. El rango intercuartil es igual a 𝑄 tres menos 𝑄 uno. Y eso es 11 menos seis. Y así, tenemos un RIC de cinco. Para averiguar si 19 es, de hecho, un valor atípico, vamos a usar la regla de 1.5 veces el RIC. Esta regla nos dice que un valor es un valor atípico si es mayor que 𝑄 tres más 1.5 por el RIC o menor que 𝑄 uno menos 1.5 por el RIC.
Como estamos viendo un dato que está por encima de 𝑄 tres, vamos a utilizar la opción con mayor que. Y eso significa que queremos saber si 19 es mayor que el tercer cuartil más 1.5 por el rango intercuartil. El RIC es cinco. 𝑄 tres es 11. 1.5 por cinco es 7.5, más 11 es igual a 18.5. 19 es mayor que 18.5. Por lo tanto, podemos decir que es cierto que 19 es un valor atípico de este conjunto de datos.
Veamos ahora un último ejemplo.
La tabla muestra las alturas en metros de los edificios más altos de una ciudad. Si hay valores atípicos en los datos, halla sus valores.
Como nos dan una tabla de datos y queremos saber si hay valores atípicos, podemos usar la regla de 1.5 veces el RIC. Un valor 𝑥 es atípico si es menor que 𝑄 uno menos 1.5 por el RIC o si es mayor que 𝑄 tres más 1.5 por el RIC.
Nuestro primer paso aquí es calcular el rango intercuartil y hallar los valores limites. Y para ello, lo primero que hacemos es ordenar los datos por tamaño. También sabemos que cada cuartil es el 25 por ciento de los datos. Eso sería un cuarto de los datos. Como tenemos 12 alturas de edificios, podemos dividir 12 por cuatro, que es tres. Y eso significa que nuestro primer cuartil ocurrirá después del tercer valor, nuestro segundo cuartil después del sexto valor y nuestro tercer cuartil después del noveno valor.
Como el primer cuartil está entre el tercer y cuarto dato, necesitamos promediar el tercer y cuarto dato para hallar su valor. 𝑄 uno es igual a 561 más 607 dividido por dos, que es 584. Necesitamos hacer lo mismo con 𝑄 tres. Hacemos un promedio de los datos noveno y décimo, 714 más 725 dividido por dos, que es 719.5. El rango intercuartílico es 𝑄 tres menos 𝑄 uno, es decir, 719.5 menos 584, que es igual a 135.5.
Hagamos una lista de lo que sabemos. 𝑄 uno es 584. 𝑄 tres es 719.5. Y nuestro RIC es 135.5. Ahora estamos listos para volver atrás y usar estas reglas para calcular los límites superior e inferior de los valores atípicos. El límite inferior para los valores atípicos es 𝑥 menor que 𝑄 uno menos 1.5 por el RIC. Y el límite superior para los valores atípicos es 𝑥 mayor que 𝑄 tres más 1.5 por el RIC. Sustituyamos los valores que tenemos, 𝑄 uno, 584 y el RIC, 135.5. Cuando hacemos ese cálculo, obtenemos 380,75.
Y eso significa que para que haya un valor atípico en el extremo inferior, este valor debe ser inferior a 380.75. Nuestro valor más pequeño es 502. Lo que significa que no tenemos un valor atípico en el extremo inferior. Veamos ahora el extremo superior. Sustituimos en la inecuación los valores de 𝑄 tres y el IQR. Y hallamos que el límite superior de los valores atípicos es 922,75. Para que haya un valor atípico en el extremo superior, este debe ser mayor que 922.75. Nuestro valor más grande es 901, que es menor que este valor. Así que, como ninguno de nuestros datos es menor que el límite inferior para los valores atípicos o es mayor que el límite superior para los valores atípicos, concluimos que no hay valores atípicos en este conjunto de datos.
Podemos terminar repasando algunos puntos clave. Un valor atípico o valor anómalo de un conjunto de datos es un dato cuyo valor es mucho más pequeño o mucho más grande que la mayoría del conjunto de datos. Matemáticamente, calculamos valores atípicos con la regla de 1.5 por el RIC. Un dato es considerado un valor atípico si es menor que 𝑄 uno menos 1.5 por el RIC o mayor que 𝑄 tres más 1.5 por el RIC. Y finalmente, los valores atípicos potenciales se pueden identificar usando un gráfico del conjunto de datos.