8 Reglas de oro para científicos de datos

Sep 17, 2021 | ESTRATEGIA | 0 Comentarios

No importa si estamos analizando dos datos en una tabla dinámica de Excel o somos un científico de datos en Amazon desarrollando un modelo de recomendación, todo científico de datos tiene que respetar estas 8 reglas…

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

1) Hacerse la pregunta correcta es más importante que encontrar la respuesta correcta.

Esto significa que antes de empezar cualquier análisis hay que entender bien el problema, y hacerse una pregunta lo más específica posible y ligada al objetivo de negocio. Un ejemplo de pregunta inadecuada sería “¿Qué piensan los clientes de este nuevo producto?”. En este caso, una pregunta mejor sería “¿Con qué probabilidad nuestros clientes comprarían este nuevo producto con estas características a este precio?”.

2) La calidad del dato es fundamental.

Aunque el enfoque de un científico de datos sea sobre la aplicación de modelos de Machine Lerning, estadística, o interpretación de los resultados, no hay que olvidar la importancia de la calidad de los datos de entrada. Si metemos datos malos o poco fiables en nuestros modelos, el resultado será inútil. Es importante no descuidar esta parte, y a menudo será la parte que lleve más tiempo en todo el proceso de análisis de datos.

3) El mejor modelo es el más simple.

A veces tenemos el instinto de usar soluciones o modelos más avanzados y complejos simplemente porque los conocemos. Utilizar y presentar unos resultados utilizando unas redes neuronales cuando una simple regresión nos daría un ajuste similar, no es lo más indicado. O utilizar cientos de variables predictoras cuando usando las 3 principales obtenemos resultados parecidos, también no es la solución ideal.

4) El contexto y conocimiento del negocio son fundamentales.

Conocer el contexto y el negocio nos ayuda enormemente a evitar sesgos y mejorar nuestros modelos. Por ejemplo, si estamos creando un modelo para predecir la demanda de un servicio, es importante conocer si tenemos que excluir algunos periodos de venta a causa de eventos especiales, o promociones, o porque hubo problemas técnicos que bloquearon la página web durante horas. Esto evita sesgar los resultados. O por ejemplo, si nuestra estrategia de precios es aumentarlos cuando detectamos momentos de alta demanda, no podemos incluir el precio como causa, dado que se está manipulando y ya no es la causa sino la consecuencia.

 5) Más datos igual más ruido.

Normalmente el “problema” suele ser tener suficientes datos para poder entrenar y testar un modelo, sin embargo, no hay que olvidar el problema de tener “demasiados” datos. Me explico. Cuantos más datos tengamos, más significativos parecerán nuestros modelos para patrones que pueden ser simplemente coincidencias o causados por otras circunstancias. Por ello, hay que tener cuidado en estas ocasiones y aplicar las técnicas adecuadas para distinguir la «señal» del «ruido».  Si no lo has leído, te aconsejo un libro imprescindible para analistas,  “La señal y el Ruido” de Nate Silver que habla de por qué muchas predicciones fracasan y de como podemos mejorar las nuestras.

menu importar desde web Power Query

6) Un modelo es una simplificación de la realidad.

No hay que olvidar que la realidad es muy compleja y depende de tantas variables que a menudo no podemos medir, o que no podemos medir precisamente, o que a veces ni siquiera conocemos. Un modelo no es la realidad, es una versión muy simplificada de ella, y tiene que ser así para ser útil. Esto significa que tiene sus limitaciones y nada sustituye comprobar en el mundo real si funciona o no funciona, así que es muy importante monitorizar los resultados una vez puesto el modelo en producción.

The Art of Data Analysis

 7) De nada sirve el mejor de los análisis si no podemos comunicar los resultados con eficacia a quien toma las decisiones.

Primero hay que involucrar quien toma las decisiones en el análisis de datos y asegurarnos de estar alineados con los objetivos de negocio. Segundo, una vez concluido el análisis, tenemos que saber presentar de manera eficaz los resultados. Hay que saber como crear gráficos que transmitan la información de manera sencilla, crear presentaciones persuasivas, presentar de manera entretenida etc. Comunicar los resultados es un arte, y a menudo subestimada. Este tema es tan importante y tan subestimado que en mi libro  “The Art of Data Analysis: Non-Technical Skills for Data Analysts” dedico casi la mitad del contenido sobre como un analista puede comunicar los resultados de manera eficaz (en un informe, una presentación, con gráficos, hablando en público etc.).

8) Las herramientas son sólo un medio para un fin.

Hay mucho debate a veces entre R o Python, o que Excel no es una herramienta para científicos de datos etc. pero lo importante no es que herramienta elijas, sino el conocimiento de los conceptos, saber cuándo aplicar un método, saber interpretar los resultados y aplicarlo al mundo real. Si para un resultado tardo menos con bolígrafo y papel, pues esta es mi mejor herramienta en este  momento. Estoy exagerando un poco, pero quiero transmitir el concepto de que la herramienta solo es un medio para conseguir un fin. Por supuesto que es importante aprender a usarlas, y si queremos avanzar tenemos que aprender a programar y adaptarnos al entorno de la empresa, pero esto no quita el hecho que una herramienta es simplemente una herramienta, más o menos adecuada dependiendo de las circumstancias y de la persona que la maneja.