Lesson Video: Comparación de distribuciones usando diagramas de caja y bigotes

En este video, vamos a aprender cómo comparar dos distribuciones de datos usando diagramas de caja y bigotes.

16:30

Video Transcript

En esta lección, vamos a aprender cómo comparar dos distribuciones de datos usando diagramas de caja y bigotes. Los diagramas de caja, también llamados diagramas de caja y bigotes son una buena forma de visualizar las diferencias entre grupos que se han medido con respecto a la misma variable. Sin embargo, antes de comenzar a comparar conjuntos de datos usando diagramas de caja y bigotes, vamos a recordar cuáles son sus elementos principales.

Lo que vamos a hacer es echar un vistazo a los elementos principales de un diagrama de caja. Aquí tenemos un boceto. Y miramos primero el eje horizontal, que recorre todos los valores posibles de los datos. Después, miramos la sección de caja de nuestro diagrama de caja y bigotes. La caja se construye usando el cuartil superior y el cuartil inferior, o sea, Q uno y Q tres, y la mediana de nuestro conjunto de datos. La parte de caja del diagrama de caja y bigotes contiene el 50 por ciento central de los valores en el conjunto de datos. Este 50 por ciento de los datos se encuentra entre Q uno y Q tres, o sea, nuestro cuartil inferior y el superior, y su rango es el rango intercuartílico, o rango intercuartil, o IQR. Y hallamos esto restando Q uno de Q tres.

Y luego tenemos nuestros bigotes. Cada uno de ellos cubre el 25 por ciento de los valores de los datos. El bigote inferior contiene todos los datos desde el valor mínimo hasta Q uno. Por tanto, es el 25 por ciento inferior de los datos. Es decir, es una cuarta parte de nuestros valores de datos. Luego tenemos el bigote superior, que contiene todos los datos entre Q tres y el valor máximo. Y esto es el 25 por ciento superior de nuestros valores de datos. Así que este es el cuarto más alto de nuestros datos.

Echemos un vistazo a la mediana. Y esta se encuentra dentro de la caja y representa el centro de los datos. Por lo tanto, el 50 por ciento de los datos se encuentra por encima de la mediana y el 50 por ciento de nuestros datos están por debajo de la mediana.

Finalmente, vamos a echar un vistazo a nuestros valores atípicos o anómalos. Generalmente están indicados con un asterisco. Y, si hay uno o más valores atípicos en un conjunto de datos, dibujamos primero nuestro diagrama de caja y bigotes excluyendo estos valores atípicos, y luego añadimos estos datos, que van a estar fuera del diagrama.

Muy bien, hemos visto los elementos clave de un diagrama de caja. Pasemos ahora a ver algunos ejemplos de cómo usar dos diagramas de caja para comparar dos conjuntos de valores de la misma variable.

Se cree que tomar los exámenes de Matemáticas por la mañana da como resultado puntuaciones más altas que tomar los exámenes de Matemáticas por la tarde. Los datos representados en los diagramas de caja y bigotes a continuación, ¿confirman esta hipótesis o no?

Bueno, si miramos primero el diagrama de caja del examen realizado en la mañana, podemos ver que la mediana está aproximadamente en 87.5, mientras que, si miramos los puntajes de los exámenes tomados en la tarde, podemos ver que la mediana se encuentra alrededor de 75. Puesto que la puntuación media de los exámenes de la mañana es más alta que la de los exámenes de la tarde, concluimos que, los resultados de los exámenes de Matemáticas de la mañana son más altos. Así que, en respuesta a la pregunta, lo que podemos decir es que, efectivamente, tomar los exámenes de Matemáticas en la mañana da como resultado calificaciones más altas que tomar los exámenes de Matemáticas en la tarde.

Lo que hemos hecho aquí es analizar los diagramas de caja que se dibujan con valores variables en el eje horizontal. Sin embargo, este no es siempre el caso. Nuestro siguiente ejemplo tiene los valores de las variables en el eje vertical.

Durante mucho tiempo se ha pensado que los gatos son la mascota más popular en internet. Para probar esta teoría, un conocido motor de búsqueda recopiló datos sobre el número de búsquedas de videos relacionados con gatos y videos relacionados con perros cada mes durante un período de cinco años. Los resultados están representados en los diagramas de caja a continuación. Usa la información ilustrada en los diagramas de caja para determinar si los gatos son o no la principal mascota de internet.

Para decidir si los gatos son más populares que los perros en las búsquedas en internet, queremos saber en promedio qué mascota tiene el mayor número de búsquedas. La medida de valor promedio, o también la podemos llamar medida de tendencia central, que tenemos disponible en los diagramas de caja es la mediana. Y la mediana se muestra mediante la rayita en cada una de nuestras cajas. Y podemos ver que, en este caso, en este ejemplo, las rayas de la mediana son horizontales ya que los valores de las variables están en el eje vertical.

Y lo que podemos ver al leer desde las rayas de las medianas hasta el eje vertical es el valor de las medianas. Podemos ver que la mediana para gatos es, aproximadamente, 15.5. Y debemos recordar que se trata de millones de búsquedas. Mientras que, para los perros, podemos ver que son aproximadamente 19 millones de búsquedas. Dado que, en promedio, el número de búsquedas de perros por mes fue mayor, podemos concluir que los datos refutan la teoría. Porque, de hecho, en las búsquedas en línea de videos, los perros son, en promedio, la mascota más popular, no los gatos.

Muy bien, hemos visto un par de ejemplos en los que se comparan conjuntos de datos. Lo que vamos a ver ahora es una cuestión que hará lo mismo, pero también considerará los valores individuales y su significado.

Los diagramas de caja a continuación representan los datos recopilados sobre la longitud de las 100 canciones de rap y de las 100 canciones de heavy metal más vendidas. En promedio, ¿qué género de música tiene canciones más largas? Y después comparamos el significado de una duración de 4.40 minutos para los dos géneros musicales.

Si vamos a la primera parte, el valor promedio utilizado en un diagrama de caja es la mediana, que es la barra vertical dentro de la caja. Si leemos hacia abajo desde nuestras medianas hasta el eje, podemos ver que la duración media de las canciones de rap es de 4.00 minutos, mientras que la mediana de las canciones de heavy metal es de 4.80 minutos. Y como la mediana de las pistas de heavy metal es más alta que la de las pistas de rap, concluimos que las canciones de heavy metal son, en promedio, más largas que las canciones de rap.

Aunque no es parte de esta cuestión, también podemos analizar la dispersión de las longitudes de las canciones. Y si lo hiciéramos, veríamos que el rango, que es el valor máximo menos el valor mínimo, de las canciones de rap es, de hecho, mayor. Por lo que tiene una mayor variedad de valores. Pero también el IQR, o sea, el rango intercuartílico, que es Q tres menos Q uno, es mayor. Así que podemos ver que las diferencias de extensión de las longitudes de las canciones de rap son mayores que las de las canciones de heavy metal.

Bien, ahora echemos un vistazo a la segunda parte de la cuestión. En la segunda parte, lo que queremos hacer es concentrarnos en el valor de 4.40 minutos. Si analizamos lo que esto significa para las canciones de rap, en 4.40 minutos es donde se encuentra la raya vertical derecha de la caja. Y lo que esta raya representa es el valor de Q tres, nuestro cuartil superior, por lo tanto, el tercer cuartil para el rap. Y esto significa que el 75 por ciento de las pistas de rap duran menos de 4.40 minutos y solo el 25 por ciento duran más de 4.40 minutos.

Sin embargo, si miramos las pistas de heavy metal, 4.40 minutos representan Q uno, por lo tanto, el cuartil inferior. Y lo que esto significa es que el 25 por ciento de las canciones de heavy metal son de hecho más cortas que 4.40 minutos y el 75 por ciento de ellas tienen más de 4.40 minutos. Por lo tanto, lo que podemos decir sobre la importancia de 4.40 minutos es que el 75 por ciento de las canciones de rap son más cortas que 4.40 minutos. Sin embargo, el 75 por ciento de las canciones de heavy metal duran más de 4.40 minutos.

Muy bien, lo que hemos visto hasta ahora es cómo comparamos los conjuntos de datos. Pero en nuestro siguiente ejemplo, lo que vamos a hacer es comparar las distribuciones de dos conjuntos de valores de la misma variable usando diagramas de caja.

Usando collares especiales de seguimiento, se registró la cantidad de millas que los leones Mason y Charlotte de Namibia recorrieron cada noche durante un mes. Los datos están representados en los diagramas de caja a continuación. Con referencia a los diagramas de caja, compara la cantidad de millas que Mason y Charlotte viajaron por la noche durante el mes.

Lo primero que vamos a hacer es marcar valores clave en nuestros diagramas de caja. Así que lo que vamos a hacer es representar todos los valores de Mason en azul y los de Charlotte en rosa. Lo que vemos primero son todos nuestros valores mínimos y máximos. Y podemos ver que Mason y Charlotte recorrieron distancias por la noche en rangos similares. Mason viajó entre dos y 17 millas por noche, y Charlotte viajó entre dos y 15 millas por noche.

Lo que hemos agregado son los otros valores clave. Hemos añadido nuestros cuartiles superior e inferior y nuestras medianas. Y como la caja de Mason en la gráfica es más ancha que la de Charlotte, podemos decir que las distancias de Mason variaron más que las de Charlotte desde la distancia media de recorrido. Y este ancho de nuestra caja es el rango intercuartil, que es Q tres menos Q uno.

Esto representa el 50 por ciento central de los datos. Si usamos esto para calcular el rango intercuartil para Mason, podemos ver que será 10 menos cuatro, porque es Q tres menos Q uno, que es seis, mientras que el rango intercuartil para Charlotte es 12 menos nueve, que es tres. Y podemos usarlos cuando saquemos nuestras conclusiones finales.

Otro análisis que podemos hacer es el de los promedios, que en este caso son nuestras medianas. Y podemos ver que la distancia media de Charlotte es de 11 millas, mientras que la de Mason es de cinco millas. Por lo tanto, podemos decir que, en promedio, los Charlotte recorrieron más distancia que Mason.

Si, además, ahora miramos dentro de cada caja, primero a la de Mason, vemos que la caja a la izquierda de la mediana de Mason es más estrecha que la caja a la derecha de la mediana. Y también notamos que su bigote izquierdo es más corto que su bigote derecho. Por lo tanto, lo que estas dos características nos dicen es que Mason viajó distancias más cortas, menos de cinco millas, el 50 por ciento del tiempo, mientras que Charlotte viajó distancias más largas, y eso es más de 11 millas, el 50 por ciento del tiempo.

Si observamos los diagramas de caja de Mason por separado con más detalle, podemos ver que el 50 por ciento de las distancias de Mason se concentraron entre dos millas, que era el mínimo, y cinco millas, que era la mediana. Además, la mitad de estos recorridos se concentraron entre cuatro millas, que era el cuartil inferior, y cinco millas, la mediana. El otro 50 por ciento de las distancias de Mason tuvieron una mayor variedad de valores. Hubo un 25 por ciento entre cinco, la mediana, y 10, el cuartil superior, y 25 por ciento entre 10, que nuevamente, como dijimos, era el cuartil superior, y 17, el número máximo de millas.

Y si hacemos lo mismo con Charlotte, podemos ver que el 25 por ciento de las veces sus distancias se concentraron entre su mediana, que era 11, y su cuartil superior, que era 12. Y el 25 por ciento estaba entre su cuartil superior de 12 y 15 millas, que era su distancia máxima. La mitad inferior de sus distancias se extendió en un rango más amplio de distancias porque tenemos un 25 por ciento entre su mínimo, dos, y su cuartil inferior, que era de nueve millas. Y el 25 por ciento entre su cuartil inferior de nueve millas y su mediana de 11 millas.

Lo que esto significa en términos estadísticos es que la concentración de la mitad de los datos de Mason en un pequeño rango de valores más bajos significa que las distancias de Mason estaban sesgadas positivamente o hacia la derecha. Si consideramos los datos de Charlotte, la mitad de sus datos se concentraron en un rango estrecho, pero bastante alto. Por lo tanto, las distancias de Charlotte estaban sesgadas negativamente o hacia la izquierda.

Aunque no ocurre en este ejemplo, hay una tercera posibilidad y es que, en un diagrama de caja y bigotes, la caja está dividida por la mediana en dos mitades iguales y los bigotes tienen aproximadamente la misma longitud, en cuyo caso decimos que la distribución de los datos es simétrica. Lo que hemos hecho aquí, en este ejemplo, es comparar tres medidas estadísticas diferentes Hemos visto la forma, la dispersión y el promedio.

Así que ahora lo que vamos a hacer es formular con todo esto una respuesta a la cuestión. Lo que podemos decir en conclusión es que, en promedio, Charlotte hizo recorridos más largos en promedio que Mason. Y esto es así porque su mediana era 11, mientras que la de la Mason era cinco. Y usamos la mediana como nuestra medida promedio. A continuación, si miramos los datos de Mason, vemos que tiene una mayor dispersión, pues su IQR, o sea, su rango intercuartil es seis, en comparación con el de Charlotte, que tiene un rango intercuartil de tres. Finalmente, los datos de Mason están sesgados positivamente, mientras que los datos de Charlotte están sesgados negativamente. Y esta es una comparación de la forma de las distribuciones de los datos.

Así que lo que hemos hecho en el ejemplo hasta ahora es comparar conjuntos de datos. Y luego, en este ejemplo, nos hemos fijado en las distribuciones de conjuntos de datos y las hemos comparado. A continuación, vamos a ver los puntos clave de la lección.

Lo primero que vamos a resumir son las partes clave de un diagrama de caja y bigotes. En primer lugar, en un extremo de nuestros bigotes, tenemos el valor mínimo, y en el otro extremo el valor máximo, del conjunto de datos. Y cabe señalar que, en los diagramas de caja, es posible que veas una raya aquí como se muestra. O puede que los veas sin las rayas verticales en cada extremo de los bigotes. Muy bien, estos son los valores mínimo y máximo.

Si miramos la parte de la caja en sí, lo que tenemos en cada extremo son los cuartiles. En el extremo inferior, tenemos el cuartil inferior o Q uno. En el extremo superior, tenemos el cuartil superior o Q tres. Y la raya que tenemos dentro de la caja es nuestra mediana. A veces, en algunos conjuntos de datos, tendremos valores o un valor que es muy diferente de los otros valores. Generalmente, esto se representa con un asterisco, y se llama valor atípico o valor anómalo.

Muy bien, ahora vamos a ver cómo se distribuyen nuestros datos en nuestro diagrama de caja. Los datos están divididos en cuatro secciones. El 25 por ciento de los datos va desde el mínimo hasta Q uno. El siguiente 25 por ciento de nuestros datos va desde Q uno, o sea, el cuartil inferior, hasta la mediana. Luego hay otro 25 por ciento de los datos desde la mediana hasta Q tres. Y, finalmente, nuestro último 25 por ciento de nuestro conjunto de datos es desde Q tres hasta el valor máximo. Por lo tanto, la parte de caja de nuestro diagrama de caja y bigotes representa el 50 por ciento de nuestro conjunto de datos.

También vale la pena señalar que, si miramos la mediana y los valores inferiores a la mediana hasta el valor mínimo, desde el mínimo hasta la mediana, eso es también el 50 por ciento de nuestros datos. Y desde la mediana hasta nuestro valor máximo está el siguiente 50 por ciento de nuestro conjunto de datos. Y la distribución de esto es algo que comparamos si estamos comparando la distribución de dos conjuntos de datos.

Si queremos comparar distribuciones usando diagramas de caja, lo primero en que nos podemos fijar es en el promedio. Y en un diagrama de caja, el valor promedio que usamos es la mediana. Por lo tanto, al comparar las medianas de los dos conjuntos de datos, podemos determinar en qué conjunto de datos los valores son en promedio más altos o más bajos que en el otro, o si no hay diferencia en promedio.

A continuación, lo que podemos hacer es echar un vistazo a la dispersión. Y la dispersión de los conjuntos de datos se puede comparar utilizando el rango, que es nuestro valor máximo menos nuestro valor mínimo, o utilizando el intercuartil, que es Q tres menos Q uno. En primer lugar, el rango nos dice la dispersión absoluta de cada conjunto de datos. Pero el rango intercuartílico nos dice la dispersión del 50 por ciento medio de los datos, es decir, qué tan lejos se desvían del centro el 50 por ciento central de los datos.

Lo último en lo que podemos fijarnos si comparamos las distribuciones de conjuntos de datos es la forma. Y la forma de un conjunto de datos tiene que ver con si es simétrica o es sesgada. ¿Qué significa esto exactamente? Significa que, si un conjunto de datos está distribuido simétricamente alrededor del centro, la caja estará dividida por la mediana aproximadamente por la mitad. Y los bigotes deben tener aproximadamente la misma longitud. Si un conjunto de datos está sesgado, es decir, más concentrado en un extremo que en el otro, uno de los bigotes será más largo que el otro. Y la caja no estará dividida uniformemente por la mediana.

Como podemos ver en nuestro ejemplo, si un conjunto de datos está o sesgado positivamente o hacia la derecha, entonces el bigote derecho será más largo que el izquierdo. La parte de la caja del lado derecho será más larga que la del lado izquierdo, porque la mediana está más hacia la izquierda en nuestra caja. Sin embargo, como en este pequeño boceto que hemos dibujado aquí, si un conjunto de datos está sesgado negativamente o hacia la izquierda, entonces el bigote izquierdo será más largo que el derecho. Y la parte de la caja en el lado izquierdo son más larga que la parte de la caja en el lado derecho.

Lesson Video: Comparación de distribuciones usando diagramas de caja y bigotes

Video Transcript

Join Nagwa Classes