Lo que un Boxplot puede decirle sobre un conjunto de datos estadísticos

  1. Educación
  2. Matemáticas
  3. Estadísticas
  4. Lo que un Boxplot puede decirle sobre un conjunto de datos estadísticos

Libro Relacionado

Estadísticas para maniquíes, 2ª edición

Por Deborah J. Rumsey

Un gráfico de caja puede proporcionarle información sobre la forma, variabilidad y centro (o mediana) de un conjunto de datos estadísticos. Es particularmente útil para visualizar datos sesgados. Los datos estadísticos también se pueden mostrar con otras tablas y gráficos.

Qué revela la forma del gráfico de caja sobre un conjunto de datos estadísticos

Un gráfico de caja puede mostrar si un conjunto de datos es simétrico (aproximadamente el mismo en cada lado cuando se corta por el medio) o sesgado (sesgado). Un conjunto de datos simétricos muestra la mediana aproximadamente en el centro de la caja.

La mediana, parte del resumen de cinco números, se muestra por la línea que atraviesa la caja en el gráfico de cajas.

Los datos sesgados muestran un diagrama de caja sesgado, donde la mediana corta la caja en dos partes desiguales. Si la parte más larga del recuadro está a la derecha (o por encima) de la mediana, se dice que los datos están sesgados a la derecha. Si la parte más larga está a la izquierda (o por debajo) de la mediana, los datos están sesgados a la izquierda.

n = 83 actrices)»/>Boxplot de Mejor Actriz en Edad (1928-2009; n = 83 actrices).

En la figura anterior, las edades están sesgadas a la derecha. La parte de la caja a la izquierda de la mediana (que representa a las actrices más jóvenes) es más corta que la parte a la derecha de la mediana (que representa a las actrices mayores). Eso significa que las edades de las actrices más jóvenes están más cerca unas de otras que las de las actrices mayores.

Estadística descriptiva de las edades de las mejores actrices (1928-2009).

Esta figura muestra las estadísticas descriptivas de los datos y confirma la asimetría correcta: la edad media (33 años) es inferior a la edad media (35,69 años).

Si un lado de la caja es más largo que el otro, no significa que ese lado contenga más datos. De hecho, no se puede determinar el tamaño de la muestra mirando un gráfico de caja; se basa en porcentajes del tamaño de la muestra, no en el tamaño de la muestra en sí. Cada sección de la gráfica de caja (el mínimo a Q1, Q1 a la mediana, la mediana a Q3, y Q3 al máximo) contiene el 25% de los datos sin importar qué. Si una de las secciones es más larga que otra, indica un rango más amplio en los valores de los datos de esa sección (lo que significa que los datos están más dispersos). Una sección más pequeña del gráfico de cajas indica que los datos están más condensados (más juntos).

Aunque un gráfico de caja puede decirle si un conjunto de datos es simétrico (cuando la mediana está en el centro de la caja), no puede decirle la forma de la simetría de la misma manera que un histograma.


Histogramas de dos conjuntos de datos simétricosPor

ejemplo, la figura anterior muestra histogramas de dos conjuntos de datos diferentes, cada uno de los cuales contiene 18 valores que varían de 1 a 6. El histograma de la izquierda tiene un número igual de valores en cada grupo, y el de la derecha tiene dos picos en 2 y 5. Ambos histogramas muestran que los datos son simétricos, pero sus

formas son claramente diferentes.


Boxplots de los dos conjuntos de datos simétricos de la figura anteriorEsta

figura muestra los boxplots correspondientes para estos dos mismos conjuntos de datos; observe que son exactamente iguales

.

Esto se debe a que ambos conjuntos de datos tienen los mismos resúmenes de cinco números – ambos son simétricos con la misma cantidad de distancia entre el primer trimestre, la mediana y el tercer trimestre. Sin embargo, si acaba de ver los gráficos de caja y no los histogramas, podría pensar que las formas de los dos conjuntos de datos son las mismas, cuando en realidad no lo son.

A pesar de su debilidad en la detección del tipo de simetría (puede añadir un histograma a sus análisis para ayudar a rellenar ese hueco), un gráfico de caja tiene una gran ventaja, ya que puede identificar las medidas reales de dispersión y centro directamente desde el gráfico de caja, donde en un histograma no puede. Un diagrama de caja también es bueno para comparar conjuntos de datos mostrándolos en el mismo gráfico, uno al lado del otro.

Lo que revela un gráfico de caja sobre la variabilidad de un conjunto de datos estadísticos

La variabilidad en un conjunto de datos que se describe en el resumen de cinco números se mide por el rango intercuartil (IQR).

El IQR es igual a Q3 – Q1, la diferencia entre el percentil 75 y el percentil 25 (la distancia que cubre el 50% medio de los datos). Cuanto más grande es el IQR, más variable es el conjunto de datos.

De la figura anterior que muestra las estadísticas descriptivas de las edades de la mejor actriz, la variabilidad en la edad de los ganadores de la mejor actriz, medida por el IQR, es Q3 – Q1 = 39 – 28 = 11 años. Del grupo de actrices cuyas edades eran las más cercanas a la mediana, la mitad de ellas estaban a 11 años de diferencia cuando ganaron sus premios.

Observe que el IQR ignora los datos por debajo del percentil 25 o por encima del 75, que pueden contener valores atípicos que podrían inflar la medida de la variabilidad de todo el conjunto de datos. Por lo tanto, si los datos están sesgados, el IQR es una medida más apropiada de la variabilidad que la desviación estándar.

Reply