Analizar los requisitos para una regresión en Excel

Nov 21, 2020 | ANÁLISIS, Estadística | 0 Comentarios

Las regresiones son modelos paramétricos que predicen un resultado cuantitativo (variable dependiente) a partir de una o más variables de predicción cuantitativas (variable independiente). El modelo que tenemos que aplicar depende del tipo de relación mostrada por las variables.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

Las regresiones tienen forma de ecuaciones en las que “y” representa las variables de respuesta que reproducen el resultado y “x” es la variable de entrada, es decir, la variable explicativa. Antes de llevar a cabo el análisis, es importante que se cumplan varias condiciones:

  • Los valores Y deben tener una distribución normal: esto puede analizarse con un diagrama residual estandarizado (Gráfico de los residuales), en el que la mayoría de los valores deberían ser cercanos a 0 (en las muestras superiores a 50, esto es menos importante), o bien un diagrama residual de probabilidades, en el que debería haber una línea aproximadamente recta (Gráfico de probabilidad normal);
  • Los valores Y deben tener una varianza parecida en torno a cada valor X: podemos utilizar una línea de ajuste óptimo (best-fit line) en un diagrama de dispersión (Gráfico de dispersión) y revisar que la distancia entre los puntos y la línea de ajuste sea similar a lo largo de la toda la línea;
  • Los residuales deben ser independientes; concretamente, en el diagrama residual (Gráfico de los residuales), los puntos deben estar distribuidos de manera equitativa en torno a la línea 0 y no deben mostrar ningún patrón (repartidos de manera aleatoria).

Si las condiciones no se cumplen, podemos o bien transformar las variables o bien llevar a cabo un análisis no paramétrico (próximamente en otro post…).

Además, las regresiones son sensibles a los valores atípicos por lo que resulta importante tratarlos de manera adecuada. Podemos detectar los valores atípicos utilizando un diagrama residual estandarizado en el que los datos que no estén dentro del rango +3 y -3 (desviaciones estándar) suelen considerarse valores atípicos. En este caso, primero deberíamos comprobar si se ha cometido algún error al recopilar los datos (por ejemplo, una persona de 200 años de edad es un error) y eliminar el valor atípico del conjunto de datos o sustituirlo (véase un poco más adelante cómo abordar los datos que faltan). Si se comprueba que no es un error, una práctica común consiste en llevar a cabo la regresión con y sin los valores atípicos, y presentar ambos resultados o transformar los datos. Por ejemplo, podemos aplicar una transformación logarítmica o una transformación del rango. En cualquier caso, deberíamos ser conscientes de las implicaciones de estas transformaciones.

 Otro problema con las regresiones es que los registros a los que les falten datos se excluyen del análisis. En primer lugar, deberíamos entender cuál es el significado de que nos falte una pieza de información: ¿significa 0 o significa que el entrevistado ha preferido no contestar? En el segundo caso, siempre que resulte importante incluir esta información, podemos sustituir los datos que faltan con un valor:

menu importar desde web Power Query
  • Con las medidas de tendencia central, si pensamos que las respuestas tienen una distribución normal, es decir que no existe ninguna razón específica para no responder a esta pregunta, podemos utilizar la media o la mediana de los datos existentes;
  • Predecir los valores que faltan utilizando otras variables; por ejemplo, si nos faltan algunos datos para la variable «ingresos», posiblemente podamos utilizar la edad y la profesión para la predicción.

Descarga la plantilla sobre la regresión lineal, que presenta un ejemplo de cómo generar el diagrama residual estandarizado. Después puedes dar el siguiente paso y aplicando una regresión a tus datos.