
Muestreo y ponderación de datos
Para todas las investigaciones para las que no se pueden obtener datos de toda la población, es necesario definir una o más muestras. Es muy importante elegir bien la muestra para que esta sea representativa del estudio. Primero hay que definir la población, es decir las características que definen el grupo de sujetos a investigar, por ejemplo, clientes mayores. Una muestra de define “no representativa” cuando no refleja la población que queremos investigar. Si por ejemplo queremos investigar el uso de la tecnología entre las personas mayores, y les contactamos por email, estamos dejando fuera los que no usan la tecnología, sesgando nuestro estudio. Una vez que hayas definido la población y las características clave, hay que utilizar un método para elegir una o más muestras.
¡No te pierdas ningún nuevo vídeo!
Visita mi canal de Youtube
Existen dos tipos de muestreo: probabilístico y no probabilístico. El primero incluye diferentes métodos aleatorios donde cada individuo tiene la misma probabilidad de incluirse en la muestra. El segundo utiliza técnicas cualitativas y no es aleatorio, por ejemplo, entrevistar a los transeúntes que quieran contestar por la calle. La ventaja del tipo probabilístico es que se suele conseguir una mejor representatividad de la población, aunque a menudo no es posible implementar un método aleatorio perfecto por varias limitaciones (algunas personas tienden a no contestar, no disponemos de un censo con toda la población, no podemos llegar a contactar con una parte de la población etc.).
Entre los métodos probabilísticos vamos a hablar de los dos que, a mi juicio, pueden ser más interesantes y útiles:
- Muestreo aleatorio simple: es decir que elegimos aleatoriamente unas cuantas personas (u objetos, entidades etc. dependiendo del estudio) desde un listado con el total de la población. A veces este método es complicado de ejecutar perfectamente porque no disponemos de un listado completo de la población, y debemos hacer con lo que tenemos (es importante saber si este listado representa bien la población, por ejemplo, que los grupos de edades tenga un peso similar al peso de la población).
- Muestreo estratificado: consiste sacar muestras aleatorias de subconjuntos de la población que están dividido de manera natural. Por ejemplo, elegir de manera aleatoria un número de persona de cada CCAA de manera proporcional a su población. Este tipo de muestreo se utiliza cuando queremos asegurarnos de obtener una muestra global con las proporciones exactas de alguna característica, en este caso la CCAA de residencia. Se utiliza también en el caso en que nuestro listado de donde elegir los individuos no representa bien a la población (si tenemos un listado con más mujeres que hombres, pero sabemos que en la población su proporción es similar, podemos usar un muestreo estratificado para conseguir una muestra con 50% y 50%). La característica que se elige para dividir en estratos tiene que ser relevante para el estudio.
¿Qué tamaño debe tener una muestra?
El tamaño de la muestra depende del error que estemos dispuestos a asumir dado que, al aumentar el tamaño, menor será el error. Por error, me refiero a cuanto el dato de la muestra difiere del dato de la población, por ejemplo, en mi muestra la edad media es de 45 años, pero en la población en realidad puede que sea un poco menor o mayor. Esta diferencia se puede inferir gracia al cálculo del error muestral. Como regla general, por debajo de 30 observaciones la variabilidad es tan alta que no se puede utilizar la muestra. A partir de 30 empiezas a identificar algunos patrones, pero es sólo alrededor de 200 que los resultados comienzan a ser bastante robustos. Hay otra regla general, y es que, con poblaciones muy grandes, la clave es el tamaño de la muestra en sí, y no tanto la proporción respecto a la población global. Incluso se puede calcular el error sin conocer el tamaño de la población. Para ser más precisos, si nuestra muestra supone menos del 5% de la población, no es necesario incluir el tamaño de la población en el cálculo, y, en la mayoría de los casos, se debe a que queremos encuestar una población muy grande. Si quieres ver en la práctica cómo calcular el tamaño mínimo de la muestra lee este post y descarga la plantilla Excel.
Es importante diferenciar dos tipos de errores, y, entonces, dos tipos de calcular la muestra:
- Error de una media: promedio de edad, de número de viajes, de ingresos etc.
- Error de una proporción: porcentaje de hombres vs mujeres, franjas de edad etc.
El cálculo del error es posible gracias a la aleatoriedad de la muestra. Supongamos que tenemos que elegir 500 personas de entre nuestros clientes (100.000 personas) para inferir el promedio de edad. Hay muchas combinaciones posibles de clientes que formarán parte de estos 500, habrá algunas con muchos jóvenes y, entonces, con una edad bastante más inferior, y habrá algunas con muchos mayores. Habrá unas cuantas más con algo más equilibrado, pero con proporciones bastante diferentes a la población. Habrá muchas que tendrán una composición parecida a la de la población. El cálculo del error es posible gracias a esta hipotética distribución de muestras, infiriendo la probabilidad de desviarse del valor real de la población. Veremos en la parte práctica como usar una plantilla que he preparado para calcular la muestra mínima necesaria o el error de nuestros datos.
Otra cosa importante para tener en cuenta es que el error muestral calculado con el total de sujetos de la muestra sirve para los cálculos con el total de la muestra, es decir la edad media del total de la muestra. Sin embargo, si quiero calcular la edad media por género, después por franja de edad etc. el error será cada vez más grande. Por ello, es importante definir antes del muestreo hasta que nivel de detalle es necesario ir. Como regla general, si no necesitas un error máximo especifico, puedes establecer un mínimo de 50 individuos para cada subgrupo que quieras analizar.
Antes de seguir hablando del error muestral, quiero parar un momento y entender la importancia de entender y utilizar el error muestra a la hora de interpretar estos datos.
A finales de los años 90, la fundación Gates (“Gates Foundation”) empezó a invertir de manera importante en las escuelas más pequeñas. En 2001 llegó a una inversión de 1700 millones de dólares y le siguieron otras varias fundaciones. Esta gran cantidad de dinero hizo que se apostara cada vez más para este tipo de escuelas, incluso incentivando la partición de grandes escuelas. ¿Pero este tipo de estrategia es justificada? Podríamos pensar que las escuelas pequeñas ofrecen mejor atención individual a los estudiantes y así mejoran el rendimiento, pero unos estudiosos analizar los resultados de casi 1.700 escuelas y lo que encontraron es muy revelador[1]. Entre las 50 mejores escuelas (en base al rendimiento de los alumnos), las más pequeñas estaban sobrerrepresentadas, en concreto tenían 4 veces más peso que en el total de la muestra. Pero esto ¿quiere decir que las escuelas más pequeñas son mejores? En absoluto. Entre las peores 50 escuelas, las más pequeñas estaban incluso más sobrerrepresentadas que entre las mejores (más de 5 veces). Esto justifica el fenómeno llamado “ley de los grandes números”, donde la variabilidad es mayor en las muestras pequeñas. Si tenemos pocos alumnos, su promedio de rendimiento podrá ser muy alto o muy bajo con más probabilidad que escogiendo una muestra mayor.
Hay un ejemplo muy ilustrativo en el libro “How not to be Wrong” de Jordan Elleberg. El juego se llama “Quién es mejor a cara o cruz”. Tenemos unos cuantos participantes que van a lanzar una moneda varias veces y gana el que más veces saca “cara”. Para hacer el juego más interesante, cada participante puede lanzar la moneda un número distinto de veces, así que ganaría el participante que saca, en proporción, el mayor número de veces “cara”. ¿Preferirías lanzar muchas o pocas veces la moneda? En términos probabilísticos, cuanta más veces lances la moneda, más te acercarás a un 50% de caras y 50% de cruces, mientras que si la lanzas pocas veces, es posible sacar valores más variables.

Por ejemplo, si lanzamos una vez, tenemos el 50% de probabilidad de sacar el 100% de cara, y el 50% de sacar el 100% de cruces. Si lanzamos dos veces, tenemos el 50% de sacar el 50% de caras, el 25% de sacar el 100% de caras, y el 25% de sacar el 100% de cruces. Sin embargo, no podríamos tampoco decir que lanzar pocas veces es la mejor estrategia, dado que, en media, los participantes que lanzan pocas veces sacarán un 50% de caras.
A veces, si una de las categorías tiene poca proporción, pero no queremos aumentar toda la muestra, podemos aprovechar el método de muestreo estratificado. Por ejemplo, quiero poder analizar datos a nivel de CCAA pero con el tamaño de muestra que tengo, el error es muy alto al analizar los datos de la Rioja. Lo que puedo hacer es seleccionar más individuos de la Rioja respecto a su proporción en la población de España. De esta forma mi error muestra baja y no tengo que aumentar las encuestas en todas las otras CCAA. Para compensar después el peso más que proporcional de la Rioja cuando quiera analizar el conjunto de territorios, pudo aplicar una ponderación.
La ponderación no sólo es importante si se utilizan ajustes como el de la Rioja, sino también si las proporciones de una categoría no es similar a la proporción de la población. Aunque puedas elegir aleatoriamente manteniendo las proporciones de una población, a la hora de encuestar a la persona, por ejemplo, puede que no quiera contestar, que no puedas contactarla etc. Incluso, a veces no es posible definir a priori quien encuetar, como por ejemplo las encuestas a bordo de un tren. En el ejemplo de los trenes, un viaje que va menos llena tiende a estar sobrerrepresentado porque el encuestador tendrá el tiempo de encuestar a más viajeros. Para corregir esto se pueden ponderar en un segundo momento los datos en base a los pasajeros reales de cada circulación o tren.
Una manera práctica de ponderar los resultados es crear un nuevo campo donde el lugar de tener 1 persona por cada fila, tendremos un cálculo:
Valor = %real / %muestra
Si por ejemplo los datos de la Rioja representan el 2% de la muestra, a pesar de que representan el 0,7% de la población española, los encuestado de este CCAA tendrán un valor de: 0,7% / 2% = 0,35. Esto quiere decir que cada encuestado de la Rioja pesa poco más de “1/3 de persona” en el cómputo total. Nos encontraremos con datos por encima y por debajo de 1, pero al final sumarán el mismo número de personas encuestadas, pero con un peso ajustado a su peso real.
Suscríbete para descargar la plantilla sobre el error muestral y al cálculo de la muestra.