Regresiones en Excel

Nov 21, 2020 | ANÁLISIS, Estadística | 0 Comentarios

La ecuación de una regresión lineal es:

Y = α + βx

 en la que y es la variable de resultado, α es el punto de intercepción, β es el coeficiente, y x es la variable de predicción. Este modelo se utiliza para predecir los valores de y para los valores x que no están incluidos en el conjunto de datos o, en general, de qué manera se ve afectado el resultado cuando cambia la variable de entrada. Por ejemplo, este tipo de modelo puede predecir cuánto aumentarían las ventas como consecuencia de un aumento del gasto en publicidad.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

En una regresión lineal, solo podemos utilizar variables numéricas, que son o bien discretas o continuas. Podemos incluir variables categóricas siempre y cuando las transformemos en variables ficticias (una variable categórica con cuatro categorías se transformará en tres variables de dos valores, 0 y 1).

Tras comprobar las condiciones, la regresión lineal puede llevarse a cabo utilizando el complemento de Análisis de datos  de Excel (cuyo resultado puedes ver en la siguiente imagen) o utilizando las fórmulas estadísticas de Excel tales como “=COEFICIENTE.R2()” para el R cuadrado, “=INTERSECCION.EJE()” para el coeficiente del punto de intercepción, y “=ESTIMACION.LINEAL()” para el coeficiente X (y otras estadísticas). Si un diagrama de dispersión que contenga las dos variables parece indicar que la relación no es lineal, podemos o bien transformar la variable independiente (logarítmica, potencia, etc.) o bien intentar utilizar una regresión no lineal (más adelante en este post). Para utilizar el complemento Análisis de datos, tendremos que seleccionar desde el menú principal Datos, luego Análisis de datos, y en seguida Regresión. Una vez se abra la ventana de la regresión deberás rellenar la información de la variable Y (resultado o dependiente) y X1 (de entrada o independiente) clicando la flecha a la derecha del espacio y seleccionando las columnas correspondientes. Si de las columnas seleccionas también el nombre, deberá marcar Rótulos. En el post sobre comprobar las condiciones de la regresión describo también los gráficos que puedes seleccionar para hacer las comprobaciones oportunas.

Existen tres resultados principales de este análisis:

  • Valor p (Probabilidad): el modelo será válido si el valor p tanto del punto de intercepción como de la variable x es inferior a 0,05 (u otro valor alfa elegido, normalmente entre 0,1, 0,05 y 0,01). En caso de que el punto de intercepción tenga un valor p más elevado, podemos fijar el punto de intercepción en 0 antes de llevar a cabo la regresión;
  • R2: se trata de una medida de cuánto se explica la variabilidad de y mediante x; cuanto más cerca esté de 1, más explicará x las variaciones en y;
  • Coeficiente de X: define la dirección y la fuerza de la relación (echa un vistazo a la correlación de Pearson).

Resulta importante tener presente que incluso si se cumplen todas las condiciones, si estamos ante una fuerte correlación y si la regresión es relevante (valor p < 0,5), esto no necesariamente significa que haya causalidad. Un buen ejemplo es que posiblemente encontremos una correlación entre el número de helados consumidos y el número de personas que se ahogan en las piscinas pero esto no significa que un fenómeno esté causado por el otro. Es importante descartar la hipótesis de una tercera variable común que esté causando las variaciones en x y en y (en nuestro ejemplo, esta variable sería la “temperatura”).

 

REGRESIÓN LINEAL MÚLTIPLE

Esta regresión lineal se utiliza cuando tenemos varias variables de predicción. En este caso, necesitamos comprobar los valores p de todas las variables de predicción. Quizás tengamos que excluir las variables con un valor p elevado (> 0,5). Puede afirmarse que cuanto más aumente el número de variables de predicción, mayor será el R2, pero esto no significa únicamente que el modelo sea mejor. Con las regresiones de múltiples variables, deberíamos comprobar el R2 ajustado, que tiene en cuenta el número creciente de variables. Como norma general, cuando comparamos dos modelos con R2 ajustados muy cercanos o iguales, se debería elegir el que tenga menos variables de predicción.

A la hora de utilizar múltiples variables de predicción, el problema de la colinealidad es una cuestión importante. Las variables de predicción no pueden correlacionarse entre sí por lo que deberíamos realizar un análisis de la correlación y eliminar las variables correlacionadas.

En una regresión con múltiples variables, solo podemos utilizar las variables de predicción numéricas; no obstante, podemos utilizar un tipo de transformación para incluir variables categóricas: la codificación ficticia. Si suponemos que una variable categórica tiene k niveles, entonces crearíamos variables ficticias k-1, y cada una de estas variables tendría dos niveles (0 y 1).

En caso de que estemos utilizando variables de entrada ordinales, podremos elegir entre tratarlas como variables numéricas (incluyéndolas directamente en la regresión) o bien transformarlas en variables ficticias. En el caso anterior, asumiremos que las distancias entre los niveles son significativas (por ejemplo, la diferencia de valor entre 1 y 2 es la misma que la que existe entre 2 y 3). En caso de que las estemos tratando como variables categóricas, no haremos la suposición anterior sino que perderemos la información sobre la clasificación.

REGRESIONES NO LINEALES

Las matemáticas que subyacen a los modelos no lineales son más complejas, como también lo son su interpretación y validación.  Siempre que sea posible, es mejor utilizar una regresión lineal simple, y si el patrón de los datos cambia, podemos segmentar los datos para explicar la variación con dos o más regresiones lineales. No obstante, si realmente creemos que es necesario un modelo no lineal para adaptarse bien a los datos:

  • Podemos utilizar softwares más completos que Excel (en Excel, podemos dibujar un diagrama de dispersión con líneas de tendencias no lineales, con la ecuación y R2, pero para una interpretación y validación adecuadas, deberíamos usar herramientas más profesionales);
  • Como regla general, si estamos probando varios modelos no lineales y todos son relevantes y tienen un R2 parecido, deberíamos entonces elegir el menos complejo (por ejemplo, un modelo cuadrático frente a uno cúbico).

 Algunos ejemplos de regresiones no lineales son las exponenciales, logarítmicas, polinomiales, cuadráticas, cúbicas y de potencia. Para los análisis en dos dimensiones, podemos trazar nuestros datos en un gráfico como el que se muestra en la imagen y añadir una línea de tendencia al gráfico (en Excel, podemos probar varias líneas de tendencia y comprobar el R2 para la bondad de ajuste (goodness of fit) de la línea a los datos). Para regresiones con más dimensiones o para unos análisis más sólidos (que incluyan otras estadísticas además de la función de regresión y R2), deberíamos utilizar un software estadístico.

menu importar desde web Power Query
80 Modelos fundamentales para analistas de negocio

Este post se basa en el libro “80 Fundamental Models for Business Analysts“ donde se explican diferentes modelos de análisis acompañados de plantillas Excel.

En DataFluency.Academy tienes a disposición tres plantillas con las instrucciones y los resultados de una regresión lineal, una regresión lineal múltiple y una regresión no lineal (exponencial). Suscríbete para poder descargarlas!