
Análisis de Componentes Principales en Excel
Un análisis de componentes principales (ACP) analiza las interrelaciones entre un gran número de variables para encontrar un número pequeño de variables (componentes) que expliquen la varianza de las variables originales. Este método suele aplicarse como el primer paso de una serie de análisis; por ejemplo, puede utilizarse cuando hay demasiadas variables de predicción en comparación con el número de observaciones o para evitar la multicolinealidad. Para entender mejor este post te aconsejo descargar la plantilla Excel con el ejemplo aquí explicado (al final del post).
¡No te pierdas ningún nuevo vídeo!
Visita mi canal de Youtube
Supongamos que una empresa está recabando respuestas sobre las numerosas características de un producto, por ejemplo, un nuevo champú: color, olor, limpieza y brillo. Tras realizar un ACP, descubre que las cuatro variables originales pueden reducirse a dos componentes[1]:
- El componente “calidad”: color y olor;
- El componente “efecto sobre el cabello”: limpieza y brillo.
Aunque resulta posible realizar un ACP en Excel con cálculos complejos o complementos especiales,[2] recomiendo utilizar una herramienta estadística propiamente dicha. A continuación, explicaré tan solo algunas directrices para la realización de un ACP.
[1] Pese a este ejemplo, un ACP suele llevarse a cabo cuando tenemos un mayor número de variables.
[2] http://www.real-statistics.com/multivariate-statistics/factor-analysis/principal-component-analysis/
En primer lugar, el análisis tiene que empezar con una matriz de correlación o covarianza. Sugiero que se utilice una matriz de correlación ya que no podremos usar una matriz de covarianza si las variables tienen escalas distintas o las varianzas son demasiado diferentes. Después, se calculan los eigenvectores (la dirección de la varianza) y los eigenvalores (el grado de varianza en determinada dirección). Ahora ya tendremos un número de componentes que será igual al número de variables, cada cual con un eigenvalor específico.

Cuanta más varianza (eigenvalor) explique un componente, más importante será. Existen varios enfoques que podemos utilizar para elegir el número de componentes que tendremos que retener:
- Definir un umbral antes del análisis:
- elegir todos los componentes que tengan un determinado eigenvalor (normalmente > 1);
- elegir a priori un número específico de componentes (y después comprobar la varianza total explicada y otras pruebas de validez);
- elegir los primeros componentes x que expliquen por lo menos el X% de la varianza, por ejemplo, el 80% si estamos usando los resultados con objetivos descriptivos o un porcentaje mayor si los resultados se van a utilizar en otro análisis estadístico (ver la tabla anterior);
- Utilizar un gráfico de sedimentación (siguiente gráfico) y “cortar” la línea en el punto de inflexión principal o en uno de los puntos de inflexión principales en los que haya una varianza total aceptable explicada (por ejemplo, en el gráfico podemos elegir los cuatro primeros componentes ya que hay un punto de inflexión importante, pero solo explican el 60% de la varianza).

El siguiente paso consiste en analizar los coeficientes de correlación de los componentes principales en una matriz con variables y componentes. Idealmente, queremos que una variable tenga una correlación elevada con un componente para definir en términos conceptuales cada componente (olor y color = componente “calidad”).
No obstante, incluso si no podemos explicar los componentes resultantes en términos conceptuales, debemos tener presente que el objetivo principal de un ACP consiste en reducir un elevado número de variables hasta obtener un número manejable de componentes, por lo que la interpretación del componente no resulta estrictamente necesaria. El ACP se puede utilizar como el método para realizar un análisis factorial con sus métodos de optimización, puntuación factorial (factor scoring) y pruebas de validez .
Próximamente publicaré un post con el análisis factorial, mientras tanto puedes descargar gratuitamente la plantilla Excel con los resultados del análisis de componentes principales.
Trackbacks / Pingbacks