Análisis Factorial Exploratorio

May 19, 2021 | ANÁLISIS, Estadística | 0 Comentarios

Un análisis factorial exploratorio (AFE) examina la interrelación entre un gran número de variables para encontrar un número pequeño de variables implícitas o latentes (denominadas factores) que expliquen gran parte de la correlación/covarianza de las variables originales. Resulta habitual confundir el AFE con el ACP (análisis de componentes principales). El principal objetivo del ACP consiste en reducir un conjunto amplio de variables hasta obtener un posible conjunto más pequeño de variables que sigan explicando la mayor parte de la varianza.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

A diferencia del ACP, el AFE se utiliza para identificar o entender conceptos complejos que no pueden medirse directamente: estatus social, inteligencia, perfil psicológico, sociabilidad, etc. Por ejemplo, en un AFE podemos ver que existen patrones similares en las respuestas sobre los ingresos, la educación y la ocupación para que podamos identificarlos como la variable latente de “estatus social”.

Antes de iniciar el análisis, deberíamos comprobar algunas suposiciones:

  • Normalidad: no es un requisito obligatorio pero puede mejorar los resultados;
  • Tamaño de la muestra: idealmente deberíamos tener un ratio elevado entre el número de observaciones y el número de variables, por ejemplo, 20:1 (aunque podemos aceptar ratios inferiores, pero no se recomienda trabajar con ratios que estén por debajo de 5:1).

Al igual que en el ACP, no voy a proponer la utilización de una plantilla de Excel ya que recomiendo encarecidamente realizar un AFE con una herramienta estadística adecuada. Sin embargo, si estamos realmente interesados en llevar a cabo un AFE en Excel, hay tutoriales disponibles online.[1] En general, un tamaño de muestra más pequeño requerirá correlaciones más elevadas para que el análisis produzca resultados válidos (las pruebas de validez se explican más adelante en este apartado).

Empezaremos por elegir el método de extracción de los factores, en nuestro caso un ACP, aunque existen otros métodos disponibles (eje principal, máxima verosimilitud, etc.). Por lo tanto, los primeros pasos serán los mismos que en un ACP (véase EL ANÁLISIS DE COMPONENTES PRINCIPALES):

  • Reproducir una matriz de correlación;
  • Elegir el umbral para el número de factores retenidos (eigenvalor, número de factores, varianza total explicada, gráfico de sedimentación).

Las herramientas estadísticas también ofrecen un método de elección de la rotación. Sin entrar en los detalles de la explicación técnica, creo que resulta suficiente saber que tener idealmente una variable con una correlación elevada con un único factor maximiza las diferencias entre los factores de carga. El método más popular y, probablemente, más utilizado es la rotación Varimax pero podemos investigar las ventajas y las desventajas de los demás métodos.

Llegados a este punto, tendremos una matriz de correlación, un gráfico de sedimentación y una tabla que recogerá todos los componentes junto con sus eigenvalores y el porcentaje de la varianza explicado. La siguiente tabla que tendremos que utilizar es una matriz con factores y variables rellenada con los factores de carga. Los factores de carga son medidas que oscilan entre -1 y 1, y representan en qué medida explica un factor una variable específica. Esta es la clave para entender los datos subyacentes e interpretar en términos conceptuales un factor. En la siguiente imagen queda claro que el factor 1 explica principalmente las  variables 5, 6, 7, 8, y 10, mientras que el factor 2 explica las variables 1 a 4. La variable 9 tiene factores de carga bajos con ambos factores así que podemos excluirla. Además, como regla general, cada variable debería tener una comunalidad de por lo menos 0,5 que tendremos que mantener en el modelo. La comunalidad de una variable es la proporción de la variación explicada por los factores retenidos.

[1] http://www.real-statistics.com/multivariate-statistics/factor-analysis/

 

 Tras elegir los factores retenidos y las variables, tendremos que recalcular los factores de carga y las comunalidades. A continuación, necesitamos llevar a cabo una prueba de validez para comprobar dos posibles problemas: 1) que la correlación entre las variables sea muy baja y 2) que la correlación entre las variables sea demasiado elevada y haya un riesgo de multicolinealidad.

Factores de carga y comunalidades

Para el primer problema, deberíamos realizar dos pruebas de medida de la exactitud de la muestra (MSA o measure of sample adequacy):

  • Prueba de Bartlett: si el valor p es significativo (normalmente < 0,05), la correlación total entre las variables será aceptable;
  • Prueba KMO: se trata de una medida que oscila entre 0 y 1, y que comprueba si hay alguna variable que no se correlaciona bien (debería ser superior a 0,5[1]; de lo contrario, deberíamos comprobar la “matriz de correlación antiimagen,” que proporciona valores KMO únicos de cada variable, y así identificar la que se debería eliminar).

Para descartar la hipótesis de la multicolinealidad, deberíamos empezar por desconfiar, al principio, de la prueba si en la matriz de correlación aparecen valores cercanos a 0,9 o superiores. Después, podemos fijarnos en el “determinante” de la matriz de correlación, que debería situarse cerca de 1, mientras que un determinante cercano a 0 significaría una probable multicolinealidad. También podemos llevar a cabo una prueba de relevancia de Haitovsky  (comprobando el valor p que debería ser < 0,05).

Puedes descargar una plantilla Excel con los resultados del Análisis de Componentes Principales (ACP) y el Análisis Factorial Exploratorio (AFE).

[1] A modo de guía, podemos considerar un KMO superior a 0,8 como un índice adecuado para un análisis factorial, de entre 0,7 y 0,8 como un índice suficiente, y entre 0,7 y 0,5 un índice entre bajo y muy bajo para un análisis factorial.