Estadística descriptiva en Excel

Nov 21, 2020 | ANÁLISIS, Estadística | 2 Comentarios

En un análisis estadístico, el primer paso consiste en analizar los datos disponibles. Este paso también resulta útil para comprobar si hay valores atípicos o si podemos asumir que existe una situación de normalidad para utilizar estos datos para una prueba o modelo estadístico específico. En este post voy a centrarme en cómo realizar un análisis descriptivo de una variable en Excel y no tanto en cómo realizar un análisis descriptivo (lo tengo previsto para otro post…).

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

 

Estadística Descripción
Media Promedio aritmético de los datos.
Error estándar Representa la diferencia entre el valor esperado y el valor real.
Mediana Valor central (es decir, el valor que divide los datos en dos – siempre que exista un número par de valores, la mediana es la media de los dos valores centrales).
Moda El valor más frecuente.
Desviación estándar Una medida de cómo se reparten los valores. En términos matemáticos, es la raíz cuadrada de la varianza.
Varianza muestral Media de las diferencias al cuadrado entre cada valor y la media (también es una medida de cómo se reparten los valores).
Curtosis[1] Una medida del “apuntamiento” y la planitud de la distribución. “0” significa que la forma es la de una distribución normal, una distribución más plana tiene una curtosis negativa, y una distribución más apuntada (o escarpada) tiene una curtosis positiva.
Asimetría Una medida de la simetría de la distribución. “0” significa que la distribución es simétrica. Si el valor es negativo, la distribución tendrá una cola larga a la izquierda, y si es positivo, tendrá una cola larga a la derecha. Como regla general, se considera que una distribución es simétrica si la asimetría se sitúa entre 1 y -1.
Rango La diferencia entre el valor más alto y el más bajo.
Mínimo El valor más bajo.
Máximo El valor más alto.
Suma La suma de los valores.
Recuento El número de valores.

 

[1] Aunque el concepto de Curtosis se defina a menudo en términos de “apuntamiento” y planitud, se ha demostrado que esto no es del todo correcto. Para más información sobre la Curtosis visite: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/

Tal y como se muestra en la plantilla, estas estadísticas pueden calcularse o bien utilizando el complemento de Excel Análisis de datos o usando las funciones de Excel. Esto último también es válido a la hora de crear un histograma, con el que podemos analizar la frecuencia de los valores y hacernos una idea del tipo de distribución. En la Figura siguiente se incluye una muestra con datos de edad que aparece representada en un histograma. A la derecha, figura un diagrama de caja (box plot) que aporta más información, dividiendo nuestros datos en cuartiles (agrupando los valores en 4 grupos que contienen un 25% de los valores). El diagrama muestra que el 50% de las personas tiene una edad comprendida, aproximadamente, entre 33 y 46 años, mientras que los demás están repartidos a lo largo de un mayor rango de edades (el 25% entre 46 y 64 años y el 25% entre 18 y 33 años).

En la plantilla (puedes descargarla al final de este post), podemos ver cómo se han creado estos dos gráficos. Para el histograma, tenemos que decidir qué grupos de edad queremos utilizar y rellenar una tabla con ellos. Después, podemos utilizar la fórmula “=FRECUENCIA” (frecuencia) seleccionando todas las celdas a la derecha de los grupos de edad y pulsando la secuencia “MAYÚS + CTRL + INTRO,” y la fórmula nos proporcionará las frecuencias. Para el diagrama de caja, tendremos que hacer algunos cálculos y realizar algunos trucos utilizando una tabla de columnas normales en caso de que tengamos una versión anterior a Excel 2016. Es posible consultar la plantilla y varios tutoriales en Internet.

Por último, quizás tengamos que identificar a qué tipo de distribución se aproximan más nuestros datos (por ejemplo, para llevar a cabo una simulación de Montecarlo). No hay ningún método específico pero podemos empezar por utilizar un histograma y comparar la forma de nuestros datos con las formas de las distribuciones teóricas. La siguiente URL proporciona 22 plantillas en Excel con gráficos y datos de distintas distribuciones: http://www.quantitativeskills.com/sisa/rojo/distribs.htm.

Si nuestras variables son categóricas, podemos analizarlas utilizando una tabla de frecuencias (frecuencias porcentaje y recuento). También podemos analizar la distribución de las frecuencias. En caso de que nuestras variables sean ordinales, deberíamos utilizar el mismo método que para las variables categóricas (por ejemplo, si las categorías son respuestas a una pregunta de satisfacción con respuestas ordinales como “muy mal,” “mal,” etc.). No obstante, en algunos casos es posible que queramos analizar variables ordinales con estadísticas utilizadas para las variables numéricas (por ejemplo, si estamos analizando respuestas a una pregunta sobre la calidad de los servicios con una escala de 1 a 10, puede resultar interesante calcular la puntuación media, el rango, etc.).

80 Modelos fundamentales para analistas de negocio

Este post se basa en el libro “80 Fundamental Models for Business Analysts“ donde se explican diferentes modelos de análisis acompañados de plantillas Excel.