¿Qué es un gráfico de cajas?

Sep 22, 2021 | ANÁLISIS, COMUNICACIÓN, Estadística, Visualización de datos | 0 Comentarios

Un gráfico de cajas es una forma de mostrar la distribución de unos datos basada en un resumen de cinco números (mínimo, primer cuartil (Q1), mediana, tercer cuartil (Q3) y máximo). Gracias a este gráfico podemos detectar valores atípicos, como están distribuidos los datos y si hay un sesgo positivo o negativo respecto a la mediana.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

Para ver esto, los datos se dividen en 4 grupos, cada uno con el 25% de ellos (o casi, dado que tendremos que excluir los valores atípicos). Para definir los límites de estos grupos definimos 5 números:

  • Mediana: es el valor central que corta en dos el grupo de datos, si los datos son pares será la media entra los dos valores centrales;
  • Primer cuartil (Q1): es el percentil 25, es decir el valor por debajo del cual tenemos el 25% de los datos, o, dicho de otra forma, el valor central entre la mediana y el mínimo.
  • Tercer cuartil (Q3): es el percentil 75, a mitad de camino entre el valor máximo y la mediana.
  • Rango intercuartílico (IQR): Q3 – Q1
  • Mínimo: dado que tenemos que identificar los valores atípicos, normalmente se calcula restando al Q1 el rango intercuartílico (IQR) multiplicado por 1,5 (Q1 – IQR*1,5).
  • Máximo
  • : dado que tenemos que identificar los valores atípicos, normalmente se calcula sumando al Q3 el rango intercuartílico (IQR) multiplicado por 1,5 (Q3 + IQR*1,5).

Analizando el gráfico de la imagen, vemos que hay un rectángulo central, dividido por la mediana. Las otras dos “cajas” están delimitadas por los “bigotes” donde están el valor mínimo y máximo, mientras que los puntos más allá de los bigotes son los valores atípicos. En este ejemplo vemos que los datos están más concentrados por debajo de la mediana, excluyendo el valor atípico, y son más dispersos por el otro lado. Dado que cada caja representa un número similar de valores, cuanto más alargada, mayor será la dispersión de los datos. Esta dispersión la podemos ver también con la desviación típica  o con un histograma (te pueden interesar los posts sobre estadísticas descriptivas y distribución normal).

Para crear un gráfico de cajas en Excel, tienes que seleccionar una columna de datos y elegir el un gráfico de “cajas y bigotes”.  Si tienes una versión antigua de Excel, tendrás que usar algunos trucos para crearlo. En el post sobre estadística descriptiva tienes una plantilla para ver como lo hice (en este caso sin los valores atípicos).

Dejo también a tu disposición la plantilla Excel con el ejemplo de este post, es decir  los datos, el gráfico de cajas y las fórmulas  para calcular Q1, Q3, Mediana, IQR, mínimo y máximo.