El universo, la población y la muestra

Jul 22, 2020 | DATOS, Investigación de mercados | 0 Comentarios

La investigación de marcados consiste en utilizar una serie de metodologías para recopilar la información que necesitamos, como por ejemplo entrevistas, encuestas, focus groups etc. Pero antes de empezar cualquier investigación, es imprescindible entender bien los conceptos de universo, población y muestra.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

  • Universo: totalidad de individuos o elementos de los cuales se puede sacar la información (por ejemplo, todos los clientes de una empresa).
  • Población: parte de los individuos del universo, se identifican en base a unas características que nos interesan para el estudio (por ejemplo, de todos los clientes, me interesa estudiar a las mujeres porque quiero testar un producto femenino).
  • Muestra: parte de los individuos de la población, dado que no es posible, normalmente, estudiarlos a todos.
Universo, población, muestra

Para todas las investigaciones para las que no se pueden obtener datos de toda la población, es necesario definir una o más muestras. Es muy importante elegir bien la muestra para que esta sea representativa del estudio. Primero hay que definir la población, es decir las características que definen el grupo de sujetos a investigar, por ejemplo, clientes mayores. Una muestra de define “no representativa” cuando no refleja la población que queremos investigar. Si por ejemplo queremos investigar el uso de la tecnología entre las personas mayores, y les contactamos por email, estamos dejando fuera los que no usan la tecnología, sesgando nuestro estudio. Una vez que hayas definido la población y las características clave, hay que utilizar un método para elegir una o más muestras.

Existen dos tipos de muestreo: probabilístico y no probabilístico. El primero incluye diferentes métodos aleatorios donde cada individuo tiene la misma probabilidad de incluirse en la muestra. El segundo utiliza técnicas cualitativas y no es aleatorio, por ejemplo entrevistar a los transeúntes que quieran contestar por la calle. La ventaja del tipo probabilístico es que se suele conseguir una mejor representatividad de la población, aunque a menudo no es posible implementar un método aleatorio perfecto por varias limitaciones (algunas personas tienden a no contestar, no disponemos de un censo con toda la población, no podemos llegar a contactar con una parte de la población etc.).

Entre los métodos probabilísticos vamos a hablar de los dos que, a mi juicio, pueden ser más interesantes y útiles:

  • Muestreo aleatorio simple: es decir que elegimos aleatoriamente unas cuantas personas (u objetos, entidades etc. dependiendo del estudio) desde un listado con el total de la población. A veces este método es complicado de ejecutar perfectamente porque no disponemos de un listado completo de la población, y debemos hacer con lo que tenemos (es importante saber si este listado representa bien la población, por ejemplo, que los grupos de edades tenga un peso similar al peso de la población).
  • Muestreo estratificado: consiste sacar muestras aleatorias de subconjuntos de la población que están dividido de manera natural. Por ejemplo, elegir de manera aleatoria un número de persona de cada CCAA de manera proporcional a su población. Este tipo de muestreo se utiliza cuando queremos asegurarnos de obtener una muestra global con las proporciones exactas de alguna característica, en este caso la CCAA de residencia. Se utiliza también en el caso en que nuestro listado de donde elegir los individuos no representa bien a la población (si tenemos un listado con más mujeres que hombres, pero sabemos que en la población su proporción es similar, podemos usar un muestreo estratificado para conseguir una muestra con 50% y 50%). La característica que se elige para dividir en estratos tiene que ser relevante para el estudio.

El tamaño de la muestra depende del error que estemos dispuestos a asumir dado que, al aumentar el tamaño, menor será el error. Por error, me refiero a cuanto el dato de la muestra difiere del dato de la población, por ejemplo, en mi muestra la edad media es de 45 años, pero en la población en realidad puede que sea un poco menor o mayor. Esta diferencia se puede inferir gracia al cálculo del error muestral. Como regla general, por debajo de 30 observaciones la variabilidad es tan alta que no se puede utilizar la muestra. A partir de 30 empiezas a identificar algunos patrones, pero es sólo alrededor de 200 que los resultados comienzan a ser bastante robustos. Hay otra regla general, y es que, con poblaciones muy grandes, la clave es el tamaño de la muestra en sí, y no tanto la proporción respecto a la población global. Incluso se puede calcular el error sin conocer el tamaño de la población. Para ser más precisos, si nuestra muestra supone menos del 5% de la población, no es necesario incluir el tamaño de la población en el cálculo, y, en la mayoría de los casos, se debe a que queremos encuestar una población muy grande.

Es importante diferenciar dos tipos de errores, y, entonces, dos tipos de calcular la muestra:

  • Error de una media: promedio de edad, de número de viajes, de ingresos etc.
  • Error de una proporción: porcentaje de hombres vs mujeres, franjas de edad etc.

El cálculo del error es posible gracias a la aleatoriedad de la muestra. Supongamos que tenemos que elegir 500 personas de entre nuestros clientes (100.000 personas) para inferir el promedio de edad. Hay muchas combinaciones posibles de clientes que formarán parte de estos 500, habrá algunas con muchos jóvenes y, entonces, con una edad bastante más inferior, y habrá algunas con muchos mayores. Habrá unas cuantas más con algo más equilibrado, pero con proporciones bastante diferentes a la población. Habrá muchas que tendrán una composición parecida a la de la población. El cálculo del error es posible gracias a esta hipotética distribución de muestras, infiriendo la probabilidad de desviarse del valor real de la población. Veremos en la parte práctica como usar una plantilla que he preparado para calcular la muestra mínima necesaria o el error de nuestros datos.

Otra cosa importante para tener en cuenta es que el error muestral calculado con el total de sujetos de la muestra sirve para los cálculos con el total de la muestra, es decir la edad media del total de la muestra. Sin embargo, si quiero calcular la edad media por género, después por franja de edad etc. el error será cada vez más grande. Por ello, es importante definir antes del muestreo hasta que nivel de detalle es necesario ir. Como regla general, si no necesitas un error máximo especifico, puedes establecer un mínimo de 50 individuos para cada subgrupo que quieras analizar.

 Si quieres poner el práctica lo aprendido, te sugiero ver el post “Muestreo con Excel“.