Análisis de Componentes Principales en Excel

May 18, 2021 | ANÁLISIS, Estadística | 0 Comentarios

Un análisis de componentes principales (ACP) analiza las interrelaciones entre un gran número de variables para encontrar un número pequeño de variables (componentes) que expliquen la varianza de las variables originales. Este método suele aplicarse como el primer paso de una serie de análisis; por ejemplo, puede utilizarse cuando hay demasiadas variables de predicción en comparación con el número de observaciones o para evitar la multicolinealidad. Para entender mejor este post te aconsejo descargar la plantilla Excel con el ejemplo aquí explicado (al final del post).

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

Supongamos que una empresa está recabando respuestas sobre las numerosas características de un producto, por ejemplo, un nuevo champú: color, olor, limpieza y brillo. Tras realizar un ACP, descubre que las cuatro variables originales pueden reducirse a dos componentes[1]:

  • El componente “calidad”: color y olor;
  • El componente “efecto sobre el cabello”: limpieza y brillo.

Aunque resulta posible realizar un ACP en Excel con cálculos complejos o complementos especiales,[2] recomiendo utilizar una herramienta estadística propiamente dicha. A continuación, explicaré tan solo algunas directrices para la realización de un ACP.

[1] Pese a este ejemplo, un ACP suele llevarse a cabo cuando tenemos un mayor número de variables.

[2] http://www.real-statistics.com/multivariate-statistics/factor-analysis/principal-component-analysis/

 En primer lugar, el análisis tiene que empezar con una matriz de correlación o covarianza. Sugiero que se utilice una matriz de correlación ya que no podremos usar una matriz de covarianza si las variables tienen escalas distintas o las varianzas son demasiado diferentes. Después, se calculan los eigenvectores (la dirección de la varianza) y los eigenvalores (el grado de varianza en determinada dirección). Ahora ya tendremos un número de componentes que será igual al número de variables, cada cual con un eigenvalor específico.

Resultados analisis componentes principales

Cuanta más varianza (eigenvalor) explique un componente, más importante será. Existen varios enfoques que podemos utilizar para elegir el número de componentes que tendremos que retener:

  • Definir un umbral antes del análisis:
    • elegir todos los componentes que tengan un determinado eigenvalor (normalmente > 1);
    • elegir a priori un número específico de componentes (y después comprobar la varianza total explicada y otras pruebas de validez);
    • elegir los primeros componentes x que expliquen por lo menos el X% de la varianza, por ejemplo, el 80% si estamos usando los resultados con objetivos descriptivos o un porcentaje mayor si los resultados se van a utilizar en otro análisis estadístico (ver la tabla anterior);
  • Utilizar un gráfico de sedimentación (siguiente gráfico) y “cortar” la línea en el punto de inflexión principal o en uno de los puntos de inflexión principales en los que haya una varianza total aceptable explicada (por ejemplo, en el gráfico podemos elegir los cuatro primeros componentes ya que hay un punto de inflexión importante, pero solo explican el 60% de la varianza).
Grafico sedimentacion analisis componentes principales

El siguiente paso consiste en analizar los coeficientes de correlación de los componentes principales en una matriz con variables y componentes. Idealmente, queremos que una variable tenga una correlación elevada con un componente para definir en términos conceptuales cada componente (olor y color = componente “calidad”).

No obstante, incluso si no podemos explicar los componentes resultantes en términos conceptuales, debemos tener presente que el objetivo principal de un ACP consiste en reducir un elevado número de variables hasta obtener un número manejable de componentes, por lo que la interpretación del componente no resulta estrictamente necesaria. El ACP se puede utilizar como el método para realizar un análisis factorial con sus  métodos de optimización,  puntuación factorial (factor scoring) y  pruebas de validez . 

 Próximamente publicaré un post con el análisis factorial, mientras tanto puedes descargar gratuitamente la plantilla Excel con los resultados del análisis de componentes principales