¿Qué es una distribución normal y para qué sirve?

Sep 22, 2021 | ANÁLISIS, Estadística | 0 Comentarios

Esta foto de Autor desconocido está bajo licencia CC BY

La distribución normal es la más importante de las distribuciones en estadística dado que gracias a ella podemos explicar muchos fenómenos comunes como la altura de la población, el efecto de un fármaco, el consumo de un cierto producto etc. Los datos se distribuyen de manera simétrica alrededor de la media en forma de campana, la famosa “campana de Gauss”, y los valores más cercanos a la media son más probables de encontrarse. Gracias a esta distribución, podemos tener una idea de como se “distribuyen” los datos, por ejemplo estimando que probabilidad hay de encontrar alguien o algo entre dos valores específicos. Por ejemplo la probabilidad de encontrar alguien de entre 30 y 34 años en una población específica.

Más formalmente, podríamos definir una distribución normal

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

…como un modelo teórico que aproxima el valor de una variable aleatoria continua, es decir que adapta esta variable a una función que depende de la media y la desviación típica.

Para entender el concepto podemos empezar dibujando un histograma desde una muestra con 30 personas a las que le hemos preguntado la edad (en este post te explico como crear un histograma). Hemos dividido las edades en intervalos suficientemente amplios para ver la frecuencia por grupos de edades y tener una idea de la distribución. Por ejemplo, vemos que tenemos una persona de entre 10 y 20 años, 5 personas de entre 20 y 30 años etc. Sin embargo, si queremos tener una idea más precisa de la distribución por edades, deberíamos usar intervalos más pequeños.

menu importar desde web Power Query

En este caso, el problema es que no tenemos suficientes datos. Si creamos intervalos más pequeños va a ser complicado entender la distribución y las probabilidades de encontrar una persona con un cierto rango de edad (en la población a la que se refiere la muestra). Y dado que una distribución normal nos sirve para darnos estas probabilidades, vamos a ver como aprovecharla. Gracias a la información de esta muestra, podemos calcular la media y la desviación típica y construir nuestra distribución normal. La media nos indicará el centro de la curva, mientras que la desviación típica su amplitud (puedes ver los cálculos en la plantilla descargable al final del post). Más concretamente, la desviación típica es aquel valor que, sumado y restado a la media, define un intervalo que incluye el 68,2% de los datos. Siguiendo el mismo concepto, sabemos también que a 2 desviaciones típicas está el 95,4% de los datos, y a 3 desviaciones típicas de la media está casi la totalidad de los datos (99,7%).

Esta función es como si tuviéramos infinitos intervalos en el histograma, y las columnas ya serían un continuo de puntos que dibujan la función de densidad. Podemos aproximar esta curva en Excel utilizando la siguiente función y aplicarla a un listado de valores ordenados, en nuestro caso un valor para cada año:

= DISTR.NORM.N(x ; media ; desviación ; FALSO)

 “x” representa la edad del eje horizontal que hemos ordenado en una columna, y la media y desviación la calcularemos con el listado de edades. “FALSO” significa que no está calculando la probabilidad acumulada, sino la “probabilidad bruta”. 

Seleccionando estos datos podemos añadir esta línea al gráfico con la frecuencia de edades (te recuerdo que puedes descargar la plantilla Excel al final del post para ver los cálculos). Notarás que con el histograma sería difícil apreciar la distribución de los datos. Para determinar la probabilidad de encontrar un valor entre, digamos, 30 y 34 años, tenemos que calcular el % del área correspondiente debajo de la curva entre 30 y 34 (es decir la probabilidad de encontrar una persona de entre 30 y 34 años). Es muy importante que no confundas el % del eje vertical con la probabilidad. Es decir, que no podemos decir que la probabilidad de que una persona tenga 39 años es un 4%. La probabilidad sólo se puede definir para intervalos de edades, también con decimales, pero sólo con intervalos.

Para calcularlo podemos utilizar la misma función Excel de antes, pero añadiendo al final “VERDADERO” para calcular la probabilidad acumulada. Por ejemplo, si calculamos la probabilidad acumulada de 30, nos dará el área debajo de la curva desde 30 años hasta el final de la curva a la derecha. Pero dado que tenemos que encontrar la probabilidad en un intervalo, restaremos a la probabilidad acumulada de 30 la probabilidad acumulada de 34. Al final tenemos aproximadamente un 12% de probabilidad de encontrar una persona de entre 30 y 34 años.

Espero que este post haya servido para que entiendas mejor la distribución normal… pero antes de terminar tengo decirte que el ejemplo que hemos visto  tiene una pequeña imprecisión que he usado para facilitar la explicación. Las fórmulas que hemos usado son para calcular una distribución normal en base a datos reales de una población. Sin embargo, cuando tratamos de estimar la distribución de una población basándonos en la desviación y media de una muestra (como en el ejemplo), tendríamos que utilizar una distribución “modificada”, la distribución “t”. Por el momento solo necesitas saber que esta distribución es menos “puntiaguda” y mas alargada comparado con la distribución normal y depende del tamaño de la muestra. Cuanto más grande la muestra, más se parecerá a la distribución normal. De hecho, por lo general, si la muestra es mayor que 30, las dos distribuciones son muy similares, y se puede utilizar la distribución normal en lugar de la distribución “t”. Pero esto lo veremos en otro post…

Y no te olvides suscribirte al blog para poder descarga la plantilla con los cálculos y gráficos presentados en este post.