Teorema del Límite Central: Qué es y para qué sirve

Nov 5, 2021 | ANÁLISIS, Estadística | 0 Comentarios

El teorema del límite central es la clave de muchas actividades estadísticas donde se utiliza una muestra para estimar unos valores sobre una población. Este teorema puede parecer algo místico, pero en realidad se basa en dos conceptos básicos: muestreo y probabilidad.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

Empezamos por partes. Según este teorema, una muestra bien definida y suficientemente grande se parecerá a la población de la cual se ha sacado. Por ejemplo, si queremos estimar el grado medio de satisfacción de nuestros clientes, podemos utilizar una encuesta a una muestra de estos clientes y con esta estimar el grado de satisfacción medio del conjunto total de clientes (población). Obviamente, la media de satisfacción de la muestra no será exactamente igual a la media de todo el conjunto de clientes, y cada posible muestra que saquemos tendrá valores diferentes. Sin embargo, la probabilidad de escoger una muestra que se desvíe mucho de la verdadera media es muy baja. Así que podemos inferir desde una muestra, con un cierto nivel de confianza, que la media de satisfacción verdadera estará entre dos valores concretos. Bien, ahora que el concepto está claro, hay que traducirlo a algo más concreto: ¿Cómo definimos estos dos valores?

Para ello, hay que saber que la media de cada muestra que hipotéticamente saquemos de la población se distribuirá de manera normal (alrededor de la media de la población). Si has leído mi post sobre la distribución normal, te acordarás que esta distribución tiene unas características específicas y gracias a ello podemos calcular la probabilidad de encontrar una cierta observación entre dos valores específicos. Sabemos que aproximadamente el 95% de las medias de las muestras estará entre dos desviaciones típicas de la media verdadera, así que podemos identificar el intervalo de valores donde, según nuestro nivel de confianza (95%), estará la media de la población («la media de la población estará entre X1 y X2 con un nivel de confianza del 95%).

Normal Distribution CC BY SA NC image from Wikimedia Commons user Mwtoews

Este intervalo de valores será más corto cuanto más aumente el tamaño de la muestra (es posible incluso calcular el tamaño mínimo que necesitas para que el error sea X, te lo explico en este post https://datafluency.academy/muestreo-con-excel/). Es importante recordar que aunque la distribución de la satisfacción en la población no siga una distribución normal, la distribución de las medias de las muestras seguirá una distribución normal. Para evitar confusión, es importante llamar con su proprio nombre las cosas. Cuando hablamos de la distribución de la satisfacción en la población, hablamos de “desviación típica” mientras que cuando hablamos de la media de satisfacción de las muestras, hablamos de “error típico”. En realidad, representan lo mismo (la dispersión alrededor de la media) pero es importante llamarlos con su propio nombre para evitar confusiones.

Aquí necesito hacer un paréntesis. Un requisito fundamental de este teorema es que la muestra sea representativa. Esto quiere decir que se ha seleccionado una muestra aleatoria sobre una población. Si esto no fuera posible, debemos intentar utilizar técnicas que ajusten estos resultados, cómo por ejemplo la ponderación de los datos. Te aconsejo leer este post https://datafluency.academy/muestreo-y-ponderacion-de-datos/ sobre el tema. Además, aunque la posibilidad de obtener valores extremos sea muy baja, sigue siendo una posibilidad. Por ello es importante analizar los valores atípicos, que dependen del tipo de variable que estemos analizando. En nuestro ejemplo sobre la satisfacción de los clientes es menos probable encontrar valores tan extremos que sesguen mucho la media (ya que hablamos de valores en una escala limitada, por ejemplo de 1 a 10). Sin embargo, en otros casos el sesgo podría ser importante. Un ejemplo sería si preguntamos los ingresos, ya que podríamos tener a un millonario cuyo valor sea tan extremo que sesgaría significativamente los resultados.

Retomamos ahora el intervalo de valores para estimar la media de la población. Este intervalo se basa en el error típico (la desviación típica de las medias muestrales) que se calcula dividiendo la desviación típica de la población por la raíz cuadrada del número de encuestados. Para definir el intervalo, tendremos que multiplicar el error por la mitad del valor Z (valor que depende del nivel de confianza que elijamos). Este producto lo sumaremos y restaremos al promedio de la muestra. En el caso más común de utilizar un nivel de confianza del 95%, el valor Z será 1,96. En la siguiente fórmula tienes “Za”, que significa el valor Z en base al alfa definido, en nuestro caso 5% (nivel de confianza = 100%-alfa = 95%). El nivel de confianza sirve para determinar la confianza (95%) que la media de la población esté entre X1 y X2 (intervalo).

Aquí tenemos que volver a hablar de la distribución t. La que hemos usado en la fórmula es la distribución normal, pero este sería el caso si conociéramos la desviación típica de la población. Sin embargo, en la práctica no conocemos este dato, y tendremos que utilizar la desviación típica de la muestra. Por ello, tendríamos que utilizar la distribución “t” y el valor “Z” cambiaría. Excel tiene fórmulas para calcular este intervalo utilizando la distribución “t” así que no tenemos que preocuparnos por encontrar este valor: INTERVALO.CONFIANZA.T(alfa;desviación;tamaño). El resultado de esta función lo tendremos que sumar y restar a la media de la muestra para definir el intervalo.

Otra cosa importante es que esta fórmula sirve para calcular el intervalo con variables numéricas donde calculamos una media, pero a veces tenemos que calcular el intervalo de una proporción (por ejemplo para inferir el % de población que fuma). En este caso la formula será la siguiente (p = proporción):

En los dos casos (medias y proporciones), el intervalo de valores será más corto cuanto más aumente el tamaño de la muestra (es posible incluso calcular el tamaño mínimo que necesitas para que el error sea X; tienes la plantilla Excel para calcularlo en este post https://datafluency.academy/muestreo-con-excel/). Esto significa que, si queremos disminuir el intervalo o el error, podemos aumentar la población. Un dato interesante, si te has fijado en la fórmula, es que el error no depende del tamaño de la población sino del tamaño de la muestra.