
¿Machine Learning o estadística de toda la vida?
Si te dedicas al mundo de los datos habrás encontrado algún “meme” o discursos criticando la moda de llamar “machine learning” a la “estadística” de toda la vida. ¿Pero es realmente así?
¡No te pierdas ningún nuevo vídeo!
Visita mi canal de Youtube
La verdad es que llevo trabajando más de 10 años en este campo y nunca antes me había parado a pensar en serio en que se diferencian los dos campos, o al menos no veía el porqué. Sin embargo, hace unos días estuve leyendo el libro Business Data Science de Matt Taddy y de repente tuve una revelación…
Antes de esta “revelación”, asociaba la estadística más a las pruebas de hipótesis, las estadísticas descriptivas o a los conceptos del teorema del límite central y la teoría de probabilidades. Por otro lado, “machine learning” (ML) lo relacionaba más con la generación de modelos y algoritmos para predecir y optimizar un resultado, a menudo asociado a una cierta automatización en la explotación de estos modelos. Sin embargo, este concepto simplista chocaba con la realidad. Cuando trabajo con una regresión, ¿es estadística o machine learning?
En realidad, muchos de los conceptos de ML proceden de la estadística, pero entonces ¿dónde está la diferencia? Pues como comenta de manera muy acertada Matt Taddy en su libro, mientras la estadística se ha orientado más en la parte inferencial de los modelos, ML se ha enfocado en mejorar la predicción. Utilizando como ejemplo una regresión lineal, la estadística suele dar prioridad al ajuste de los coeficientes para reducir el error de la ecuación y aumentar el R cuadrado. Dicho de otra forma, el objetivo de la regresión es encontrar el coeficiente (o los coeficientes) que mejor refleja la realidad de la relación entre “x” e “y”. ML, por otro lado, se enfoca más en reducir el error entre la predicción y la realidad. Es por ello por lo que un buen modelo de ML se entrena con un conjunto de datos de “entrenamiento” y su rendimiento se comprueba con un conjunto de datos de test (y a veces se utiliza un tercer conjunto llamado “de validación”).
Mientras la estadística está más relacionada en la inferencia a partir de muestras, ML se ha ido focalizando cada vez más en calibrar los modelos con el total del conjunto de datos con el objetivo de generar una mejor predicción. Esto ha permitido también el desarrollo de modelos parecidos a “cajas negras”, es decir modelos cuya interpretación es compleja (o casi imposible), como las redes neuronales. Con este enfoque, la predicción es más sencilla que la estadística inferencial, sobre todo cuando nos enfrentamos, cada vez más, a tablas con una gran dimensionalidad y datos dispersos (sparse data). Con estos tipos de datos, el número de variables aumenta considerablemente y, tantos estadísticos como científicos de datos llevan años estudiando cómo enfrentarse a ellos. Sin embargo, para los primeros el trabajo es más complejo dado que se trata de encontrar la ecuación y los coeficientes que mejor refleje la realidad. Para los segundos, el simple enfoque en la precisión de la predicción les ha hecho más libre por no tener que preocuparse tanto en la estructura del modelo y les ha permitido experimentar con nuevos algoritmos y diferentes tipos de datos. Gracias a esta “libertad” y al gran poder de predicción, el punto de vista de ML se ha popularizado enormemente.
Sin embargo, es importante recordar que estos tipos de modelos funcionan bien en predecir un futuro que se parece al pasado dado que se enfocan en el reconocimiento de patrones para predecir de forma precisa, sin importar la estructura del modelo. Por ello, es importante entender donde estos modelos funcionan bien y donde necesitamos entender el porqué, es decir que definir la parte estructural del problema es fundamental. En estos casos, la estructura del modelo cobra más importancia, así como el conocimiento del negocio y de las fuerzas que lo mueven. Pero esto ya es material para otro post…
Deja un comentario