El factor humano en los modelos predictivos

Dic 1, 2020 | ESTRATEGIA | 0 Comentarios

Este post es un extracto traducido del mi último libro «The Art of Data Analysis» donde hablo de la importancia del factor humano en el análisis de datos, y de como entender las limitaciones y sesgos antes de incluir este componente en los modelos de predicción. También he preparado un vídeo donde hablo del factor humano en los modelos predictivos y te aconsejo 4 libros estupendos para entender estos conceptos de psicología:

 Influence de Robert Cialdini

The Undoing Project de Michael Lewis

Thining Fast and Slow de Daniel Kahneman

The Art of Data Analysis de Alberto Scappini

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

Es suficiente leer Moneyball de Michael Lewis para entender la enorme mejora en la toma de decisiones basadas en los datos en lugar que sólo la intuición o instinto. Sin embargo, como explica el mismo autor en The Undoing Project, este modelo tiene sus limitaciones. El autor cuenta la historia de Daryl Morey que estaba usando datos y estadísticas para elegir a los mejores jugadores para el equipo de la NBA Houston Rockets. Morey logró mejorar sensiblemente la selección de jugadores de la NBA, pero, a un dado momento, entendió que había alcanzado los límites del modelo.

 «El truco no era sólo construir un modelo mejor. Era escuchar tanto al modelo como a las personas al mismo tiempo”. Hay que averiguar en qué es bueno y malo el modelo, y en qué son buenos y malos los humanos», dijo Morey. Los seres humanos, a veces, tienen acceso a información que el modelo no tiene». Sin embargo, si vamos a incluir el juicio humano en nuestros modelos, primero tenemos que entender sus limitaciones, como hemos hecho para los modelos de datos. Por suerte para nosotros, en los años setenta, Amos Tversky y Daniel Kahneman (Premio Nobel de Economía) comenzaron a analizar cómo la gente toma decisiones utilizando heurísticas (reglas generales, intuición, experiencias etc.).  Afirmaron que «estas heurísticas son muy económicas y generalmente efectivas, pero conducen a errores sistemáticos y predecibles». 

menu importar desde web Power Query

Esto significa que podemos mejorar nuestros modelos utilizando el factor humano, pero teniendo en cuenta estos sesgos. Vamos a ver a continuación estos sesgos y como tenerlos en cuenta. En el libro Thinking Fast and Slow, Daniel Kahneman explica en detalle muchos de estos conceptos.

Las emociones juegan un papel crucial en el comportamiento de las personas y, por lo tanto, en la toma de decisiones. En lugar de utilidad, las personas tratan de maximizar el placer de sus estados emocionales, especialmente la felicidad y el arrepentimiento. Por ejemplo, valoramos un objeto más si es nuestro, debido al apego emocional que sentimos. Su valor no es meramente económico, sino que es la suma del valor monetario y el valor emocional. Otro ejemplo es el precio que pagamos para evitar el riesgo con los seguros, incluso si el mero valor económico de las probabilidades y los resultados sugiere que estamos mejor sin seguro.

Además de nuestra forma específica de estimar la utilidad, tendemos a malinterpretar y mal uso de la información. A veces, los datos son incompletos porque solo vemos cosas que suceden y no cosas que no suceden, pero actuamos como si tuviéramos acceso a información completa. Cuando aplicamos una estrategia de negocio y funciona, vemos la elección como un éxito, pero no podemos compararla con los resultados de una estrategia alternativa. No solo percibimos los datos incompletos como completos, sino que también filtramos la información de una manera sesgada. Tenemos una especie de sesgo de confirmación según el cual tendemos a ver lo que esperamos ver. Nos gusta la consistencia con nuestras creencias; por lo tanto, cuando recibimos nueva información la aceptamos si está en línea con ellas, pero la desafiamos ferozmente si no lo está. Además, cuando nos enfrentamos a información ambigua, normalmente sólo vemos los aspectos que están de acuerdo con nuestras creencias. Pero el problema no es sólo el filtrado sesgado, sino que también seleccionamos las piezas de información y fuentes de una manera sesgada, es decir, las que están más cerca de nuestro pensamiento. Por ejemplo, cuando intentamos probar algo, si encontramos información que lo confirme, detenemos nuestra investigación, pero si la información contradice nuestra información inicial, seguimos buscando nuevos datos. Los problemas no terminan aquí. Incluso cuando los datos están completos y no los filtramos, podemos estar sesgados por nuestra interpretación de probabilidad, estadísticas e inferencia bayesiana.

Sabemos matemáticamente cuánto es el 1%, pero nuestra sensación de esta probabilidad para un evento es mayor que la probabilidad real. ¿Preferirías 200.000 euros con seguridad o un 99% de probabilidad de ganar 400.000 euros y un 1% de probabilidad de no conseguir nada? ¿Tienes dudas sobre eso? La primera opción tiene un resultado ponderado de 200.000 euros, mientras que la segunda tiene 396.000 euros. Supongo que aún tienes dudas sobre la decisión que tomarías. Por un lado, es porque ponemos más peso en este 1% de probabilidad, y menos peso en el 99%. Por otro lado, en esta situación, también tenemos aversión al riesgo por el miedo a la decepción si finalmente no recibimos nada. Esto no sería el caso si nos ofrecieran esta opción varias veces. Este concepto es útil, por ejemplo, para decidir la diferencia de precios de una tarifa reembolsable frente a una no reembolsable (en billetes de avión, estancias en hoteles, etc.). Amos Tversky y Daniel Kahneman llevaron a cabo un estudio donde estimaron el peso que las personas asignan a las probabilidades. Para porcentajes pequeños, las personas tienden a sobrevalorar la probabilidad debido a lo que llamaron el «efecto de posibilidad». Esto explica por qué la gente juega en las loterías, contrata un seguro, o compra tarifas reembolsables. Pasar de algo imposible (0%) a algo improbable pero posible (1%) es un gran aumento en nuestra percepción de la probabilidad. Lo contrario sucede con porcentajes elevados, es decir que solemos subestimar la probabilidad real.

Los dos autores cruzaron esta información con el hecho de que reaccionamos de manera diferente a las ganancias que a las pérdidas en una matriz llamada «el efecto cuádruple». Esta matriz explica situaciones como loterías o seguros donde las personas toman decisiones que se considerarían «irracionales» mirando los números…

The Art of Data Analysis

Este post se basa en el libro “The Art of Data Analysis“ donde explico más en detalle como entender los sesgos y limitaciones del factor humano y de como incluirlo en el análisis de datos. Además, en este libro te explico las habilidades no-técnicas para triunfar como analista (creatividad, negociación, diseño, presentaciones, modelos de deciones con heuristics etc.).