Introducción a las pruebas de hipótesis

Nov 16, 2020 | ANÁLISIS, Estadística | 0 Comentarios

Por lo general, las pruebas de hipótesis estadísticas incluyen todas las técnicas que prueban una hipótesis nula frente a una hipótesis alternativa. Aunque también engloban las regresiones, me voy a centrar únicamente en las pruebas realizadas sobre muestras.

Existen tres pasos principales en una prueba de hipótesis:

  • Definición: identificar el problema, estudiarlo, y formular hipótesis;
  • Experimento: elegir y definir la técnica de recopilación de datos y el método de muestreo;
  • Resultados y conclusión: comprobar los datos, elegir la prueba más adecuada, analizar los resultados y extraer conclusiones.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

El primer paso en una prueba de hipótesis consiste en identificar el problema y analizarlo. Las tres principales categorías de las pruebas de hipótesis son:

  • comprobar si dos muestras son significativamente diferentes; por ejemplo, tras llevar a cabo una encuesta en dos hoteles de la misma cadena, queremos comprobar si la diferencia en la satisfacción media es relevante o no;
  • comprobar si un cambio en un factor tiene un impacto relevante sobre la muestra llevando a cabo un experimento (por ejemplo, comprobar si una nueva terapia tiene mejores resultados que la terapia tradicional);
  • comprobar si una muestra tomada de una población realmente la representa (si los parámetros de la población, es decir, la media, son conocidos); por ejemplo, si se espera que una línea de producción fabrique objetos con un peso específico, es posible comprobarlo tomando muestras aleatorias y pesándolas. Si la diferencia de peso medio con respecto al peso esperado es estadísticamente relevante, entonces querrá decir que las máquinas deberían revisarse.

Tras definir y estudiar el problema, necesitamos definir la hipótesis nula (H0) y la hipótesis alternativa (Ha), que son mutuamente excluyentes y representan todo el rango de posibilidades. Normalmente comparamos las medias de las dos muestras o la media de la muestra con la media de la población esperada. Existen tres posibles ajustes de las hipótesis:

  • Para comprobar cualquier tipo de diferencia (positiva o negativa), la H0 es tal que no existe diferencia en las medias (H0: μ = μ0 y Ha: μ ≠ μ0);
  • Para comprobar solo un tipo de diferencia:
    • positiva (H0: μ ≤ μ0 y Ha: μ > μ0);
    • negativa (H0: μ ≥ μ0 y Ha: μ < μ0).

EXPERIMENTO. La técnica de muestreo es extremadamente importante; debemos estar seguros de que la muestra se elige de manera aleatoria (en general) y, en el caso de un experimento, los participantes no deben saber a qué grupo pertenecen. Dependiendo del problema que se esté analizando y de la prueba que se esté realizando, se utilizarán distintas técnicas para calcular el tamaño de la muestra necesaria (consulte la página www.powerandsamplesize.com, que permite el cálculo del tamaño de la muestra para distintos tipos de pruebas).

RESULTADOS Y CONCLUSIONES. Una vez recopilados todos los datos, resulta necesario hacer una comprobación para buscar los valores atípicos, los datos que faltan y elegir así la prueba más adecuada en función del problema que queramos examinar, el tipo de variables y su distribución. Dependiendo de la prueba que se eliga, tenemos que comprobar si se cumplen unos requisitos específicos. Existen dos enfoques principales para realizar una prueba de hipótesis:

  • El enfoque frecuentista: se realizan suposiciones sobre la distribución de la población y se utiliza una hipótesis nula y un valor p para extraer conclusiones (casi todos los métodos presentados aquí son frecuentistas).
  • El enfoque bayesiano: este enfoque necesita contar con conocimientos anteriores sobre la población o la muestra, y el resultado será la probabilidad de una hipótesis.

A continuación tienes una tabla de resumen de la prueba que necesitas en base al tipo de variable (dicotómica – por ej. comprar, no comprar – , categórica, ordinal, interval o razón) y las características de la muestra (una, dos, o más muestras). Tienes también unos enlaces a otros post donde explico estas técnicas.

VARIABLE DEPENDIENTE CARACTERÍSTICAS DE LA MUESTRA (VARIABLES INDEPENDIENTES) CORRELACIÓN
1 MUESTRA 2 MUESTRAS MUESTRAS > 2
INDEPENDIENTE DEPENDIENTE INDEPENDIENTE DEPENDIENTE
DICOTÓMICA Prueba de proporciones Prueba de McNemar Prueba Q de Cochran Coeficiente phi, tablas de contingencia
CATEGÓRICA
ORDINAL Prueba U de Mann-Whitney Prueba de los rangos con signo de Wilcoxon Prueba de Kruskal-Wallis, prueba de la suma de rangos de Wilcoxon Prueba de Scheirer-Ray-Hare (bidireccional), prueba de Friedman (unidireccional) Correlación de Spearman
DE INTERVALO O RAZÓN Prueba to prueba z de una muestra Prueba t de dos muestras Prueba t emparejada ANOVA unidireccional ANOVA de medidas repetidas Correlación de Pearson
ANOVA bidireccional

 

Las pruebas suelen analizar la diferencia de medias, y el resultado es si la diferencia es o no relevante. Cuando alcanzamos estas conclusiones, tenemos dos tipos de posibles errores:

 

Posibles resultados de una prueba de hipótesis

NO SE RECHAZA LA HIPÓTESIS NULA

SE RECHAZA LA HIPÓTESIS NULA

LA HIPÓTESIS NULA ES VERDADERA

1-α

Tipo de error I: α

LA HIPÓTESIS NULA ES FALSA

Tipo de error II: β

1-β

 

La relevancia de la prueba dependerá del tamaño de α, es decir, la posibilidad de rechazar la hipótesis nula cuando sea verdadera. Normalmente, utilizamos 0,05 o 0,01 como valor crítico y rechazamos la hipótesis nula cuando α es inferior al valor p.

Resulta importante recordar que, si estamos realizando varias pruebas, la probabilidad de cometer un error tipo I (falso positivo) aumenta. Por esta razón, deberíamos utilizar una α corregida aplicando, por ejemplo, la corrección de Bonferroni (que divide α por el número de experimentos).

Además, resulta necesario recordar que, con un tamaño de muestra igual, cuanto más pequeña sea la α elegida, mayor será la β (falso negativo).

Si la prueba es relevante, también deberíamos calcular el tamaño del efecto. No solo es importante el hecho de que la diferencia sea o no relevante sino también cómo de significativa es esta diferencia. El tamaño del efecto puede calcularse dividiendo la diferencia entre las medias por la desviación estándar del grupo de control (para ser más precisos, deberíamos utilizar una desviación estándar agrupada, pero se necesitarán algunos cálculos). Como norma general, un tamaño del efecto de 0,2 se considera pequeño, 0,5 medio, y por encima de 0,8 grande. No obstante, en otros contextos, el tamaño del efecto puede obtenerse a través de otras estadísticas, como la razón de momios (odds ratio) o el coeficiente de correlación.

Los intervalos de confianza también suelen calcularse para que tengan un rango probable de valores que permita extraer una conclusión en la que habrá, por ejemplo, un 95% de confianza en que el valor verdadero del parámetro se encuentra dentro del intervalo de confianza X-Y. El intervalo de confianza reflejará un nivel de intervalo específico; por ejemplo, un intervalo del 95% reflejará un nivel de relevancia del 5% (o 0,05). A la hora de comparar la diferencia entre dos medias, si 0 está dentro del intervalo de confianza, significará que la prueba no es relevante.

 

 

MÉTODOS ALTERNATIVOS. En los siguientes apartados, voy a presentar varios métodos para llevar a cabo pruebas de hipótesis, necesitando algunas suposiciones o requisitos específicos (tipo de variables, distribución, varianza, etc.) Sin embargo, también hay otra alternativa que podemos utilizar cuando tengamos variables numéricas pero no estemos seguros de la distribución de la población o la varianza. Este método alternativo usa dos simulaciones:

  • Shuffling (redistribución) (una alternativa a la prueba de relevancia): redistribuimos aleatoriamente los elementos del grupo (es decir, mezclamos los elementos de ambos grupos de manera aleatoria, creando cada vez un nuevo par de grupos) y calculamos la diferencia media en cada simulación. Después de varias iteraciones, calcularemos el porcentaje de pruebas experimentales en las que la diferencia en las medias sea mayor que la que se calcula entre los dos grupos originales. Esto se puede comparar con la prueba de relevancia; por ejemplo, si menos del 5% de las iteraciones indican una diferencia mayor, la prueba será relevante con una α < 0,05.
  • Bootstrapping (método de remuestreo) (una alternativa a los intervalos de confianza): Volvemos a muestrear cada uno de nuestros grupos, retirando elementos de manera aleatoria y sustituyéndolos con otros elementos del grupo. En otras palabras, con los miembros de un grupo, recreamos nuevos grupos que pueden contener un elemento numerosas veces y no contener otro en ningún momento. Un método de remuestreo alternativo sería volver a muestrear los grupos originales en subgrupos más pequeños (método de Jackknife). Tras calcular la diferencia de las medias de los nuevos pares de muestras, tendremos una distribución de medias y podremos calcular nuestro intervalo de confianza (es decir, el 95% de las diferencias de media calculadas se sitúan entre X e Y).
80 Modelos fundamentales para analistas de negocio

 

Este post se basa en una sección del libro “80 Fundamental Models for Business Analysts” donde explico todas las pruebas de hipótesis de la tabla de resumen anterior. Con el libro tienes también a disposición una plantilla Excel para cada prueba de hipótesis. Para más información clica el enlace!