¿Qué es la Correlación?

Oct 4, 2021 | ANÁLISIS, Estadística | 0 Comentarios

Nunca te has preguntado ¿Cómo Netflix o Amazon pueden recomendar una buena película o un buen producto? Quizás estés pensando en algoritmos complejos que utilizan lo que viste, tu puntuación… en parte es verdad, pero también están utilizando los datos de otros usuarios para determinar lo que te recomiendan. Y sí, se trata de algoritmos que pueden llegar a ser bastante complejos, pero que en el fondo se basan en un concepto básico, la correlación.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

La correlación mide cuánto dos fenómenos están relacionados entre sí, por ejemplo, la temperatura y la venta de helados, cuando aumenta esta primera veremos un aumento de las ventas. Sin embargo, antes que entrar más en detalle, es importante que recuerdes este concepto: correlación no significa causalidad. Por ejemplo, podríamos ver una correlación entre la temperatura y el número de ahogamientos, pero razonando con lógica tenemos que deducir que la temperatura no es la causa, sino que hay un tercer elemento, el número de bañistas, que a su vez tiene correlación con la temperatura. Otras veces, es difícil definir el sentido “causa-efecto”, o hay una relación bidireccional, por ejemplo, entre el precio y la demanda. Las nociones de “elasticidad de precio” nos hacen pensar que al bajar los precios aumenta la demanda, pero es también verdad que al aumentar la demanda aumentan los precios (suponiendo que la oferta no varíe).

 Lo mejor para entender la correlación es crear un gráfico de dispersión donde representamos dos variables en los dos ejes, y cada punto será una observación. Como ejemplo vamos a analizar la correlación entre el valor de un inmueble y su tamaño (al final de este post puedes descargar la plantilla Excel con el ejemplo).

menu importar desde web Power Query

Lo primero que podemos notar es que hay un patrón, es decir que los puntos parecen ir de la esquina izquierda inferior hacia la esquina derecha superior, es decir al aumentar el valor vemos un aumento del tamaño. Sin embargo, no todos los elementos están perfectamente alineados, y la correlación es justo aquel valor que nos va a decir el grado de “alineación” de estos puntos. Además, la correlación nos dice si la relación es positiva o negativa, es decir si al aumentar una variable aumenta la otra también, o si disminuye.

Más concretamente, el coeficiente de correlación es un valor que va de -1 (correlación negativa perfecta) a +1 (correlación positiva perfecta). Una correlación de 1 significa que las dos variables varían de forma proporcional exacta, es decir que conociendo un cambio en la primera variable podríamos predecir exactamente un cambio en la segunda variable. Utilizando el ejemplo anterior, sería que cada 10 metros cuadrados que aumente la edad, el valor de la casa aumenta de 1.000 euros, y en el gráfico veríamos todos los puntos alineados perfectamente. Pero estos casos son prácticamente irreales, o si encuentras un caso así tienes que sospechar. Banalizando, no tiene sentido calcular la correlación entre los ingresos totales de un producto y el numero de ventas, dado que es algo que podemos calcular exactamente. 

Entonces, lo más probable que nos encontremos es un valor entre 0 y 1 (o 0 y -1) que representa “cuánto bien están alineados los puntos en el gráfico”. Vamos a ver en un momento cómo calcular la correlación, pero antes quiero introducir otro concepto que nos va a ayudar, la covarianza.

La covarianza es un valor que nos dice cuanto dos variables varían de forma conjunta respecto a sus medias. Se basa en la varianza (una medida de dispersión de los datos) que se obtiene dividiendo la suma de las diferencias entre cada valor y la media al cuadrado por el número de observaciones (o el número de observaciones -1 si estamos analizando una muestra). 

No te asuste por la fórmula, vamos a verla más en detalle para que puedas entender todo el resto:

  •  ∑ significa sumar desde la observación 1 (i = 1) hasta la observación “n” (el número de observaciones totales). Significa que cambiaremos “i” en el resto de la fórmula y sumaremos todos los resultados
  • xi es la observación “i” de la variable x (es decir que escogeremos una observación a la vez hasta el final)
  • x̄ es el promedio de la variable x
  • n-1 es el total de observaciones menos uno

Para ayudarte aún más, puedes descargar la plantilla (al final de este post) y observar la columna de la varianza de x, donde en cada fila calculo el cuadrado de la diferencia entre el valor de la misma fila y el promedio de la variable. Al final de la columna sumo el todo y lo divido entre n-1.

 La covarianza, utiliza el mismo principio pero en lugar de elevar al cuadrado, multiplico la diferencia entre el valor y el promedio de una variable con la diferencia del valor y el promedio de otra variable en la misma observación.

menu importar desde web Power Query

Si calculamos la covarianza del tamaño y valor de los inmuebles, nos sale 85.851. Esto significa que la relación es positiva (cuando una variable aumenta, la otra también), pero el problema de la covarianza es que es sensible a las unidades de medida y, por lo tanto, es complicado contextualizarla y compararla. Por ello, podemos dar un paso más y calcular la correlación dividiendo la covarianza por el producto de la desviación típica de las dos variables (tamaño y valor).

No voy a entrar demasiado en detalle aquí, pero, para que lo sepas, la desviación típica (o desviación estándar) es la raíz cuadrada de la varianza (sí, la que calculamos antes de la covarianza). Es otra medida de dispersión de la que hablé en otros posts (si te interesa puedes revisar este post donde hablo de la distribución normal y de la desviación típica). Gracias a esto obtenemos un valor que podemos comparar sin importar las unidades de medida y las variables utilizadas: el coeficiente de correlación. En concreto, y para ser exacto, se trata del coeficiente de correlación de Pearson, dado que hay otros coeficientes de correlación, pero eso será para otro post…

 Volviendo a nuestro ejemplo anterior, vemos que nuestro coeficiente de correlación es 0,73. Es decir que hay una fuerte correlación positiva entre el tamaño del inmueble y su valor. También he calculado la correlación entre la antigüedad y el valor del inmueble, que en este caso es negativa cómo puedes también ver en el gráfico.

menu importar desde web Power Query

Si te interesa saber más sobre el cálculo de la correlación en Excel y cómo interpretar los resultados, echa un vistazo a este post  y no olvides descargar la plantilla Excel donde tienes todos los cálculos, fórmulas y gráficos explicados en este post.