
Clasificación Binaria Simple en Excel
En una clasificación binaria, el objetivo consiste en clasificar los elementos de un conjunto de datos en dos grupos en función de una regla de clasificación más o menos compleja. El ejemplo propuesto en la plantilla se refiere a una empresa que quiere promocionar un perfume muy exclusivo regalando una muestra gratuita del mismo a algunos de sus clientes. El coste de ofrecer esta muestra gratuita asciende a 50€, pero si logran llegar al cliente adecuado, el retorno esperado equivale a 950€ (1.000€ menos el coste de la muestra). Para clasificar a los clientes, la empresa decide utilizar una valoración que se calcula a partir del número de compras realizadas y del importe medio gastado por cada cliente (te aconsejo leer el post Modelos de Puntuación para más información sobre la creación de indicadores de valoración). Nuestra regla de clasificación es “cuanto mayor sea la valoración, más probabilidades habrá de que funcione la muestra gratuita.”
¡No te pierdas ningún nuevo vídeo!
Visita mi canal de Youtube
El primer paso consiste en comprobar si la regla de clasificación elegida es válida, es decir, cómo de eficaz es a la hora de que clasifiquemos los elementos (clientes). La curva ROC mide la eficacia de la clasificación y es una combinación de:
- Sensibilidad: RATIO DE VERDADEROS POSITIVOS = TP / (TP+FN) [T = verdadero, F = falso, P = positivo, y N = negativo]
- 1-especificidad: RATIO DE FALSOS POSITIVOS = 1 – TN / (TN + FP)

La curva se obtiene ordenando nuestra muestra de 20 clientes desde la valoración más alta a la más baja y presentando los resultados del experimento (1 = el cliente ha comprado el producto, 0 = el cliente no ha comprado el producto).
La curva ROC es la línea continua en el siguiente gráfico, mientras que la línea discontinua es la curva ROC teórica en un modelo en el que la clasificación es aleatoria. En términos gráficos, entendemos que nuestro modelo es más eficiente que un método de clasificación aleatoria ya que la línea continua está por encima de la línea discontinua. El área que está situada debajo de la curva (AUC – Area Under the Curve) es la medida de la eficacia de la clasificación y representa la probabilidad de que un evento positivo sea clasificado como positivo. Un modelo aleatorio (línea roja) tendrá una AUC de 0,5, mientras que un buen modelo tendrá una AUC superior a 0,7. Nuestro modelo tiene una AUC de aproximadamente 0,82, por lo que podemos deducir que nuestra regla de clasificación clasifica a los clientes de manera eficaz.

El siguiente paso es encontrar el umbral óptimo que, en este caso, es la valoración mínima que debería tener un cliente para recibir una muestra gratuita. Para calcularlo, tenemos que asignar los costes y los ingresos de los cuatro posibles resultados de la clasificación:
- Verdadero positivo: si le damos una muestra gratuita al cliente adecuado, tendremos un coste de 50€ por la muestra y un retorno de 1.000€, por lo que le asignaremos al VP (o TP en inglés), unos ingresos de 950€;
- Falso positivo: si le damos una muestra al cliente equivocado, tendremos un coste de 50€;
- Verdadero negativo: predecimos de manera correcta que este cliente no comprará pese a la muestra gratuita por lo que no tendremos ni costes ni ingresos;
- Falso negativo: no somos capaces de identificar a un cliente que hubiera comprado el producto por lo que tampoco tendremos ni costes ni ingresos.
Al definir esta matriz, no tendremos que incluir ni los costes de oportunidad (los posibles ingresos perdidos en un falso negativo) ni los beneficios de oportunidad (el dinero que nos ahorramos por no enviar una muestra gratuita al cliente equivocado en un verdadero negativo). Si los incluyéramos, duplicaríamos los costes y los ingresos. En nuestro ejemplo, el umbral óptimo es una valoración de 65, lo cual significa que la empresa tendrá que enviar una muestra gratuita a los clientes que tengan, como mínimo, esta puntuación.
Esta matriz de costes/ingresos puede utilizarse para establecer el umbral de probabilidad de una regresión logística. Utilizando el mismo ejemplo, podemos llevar a cabo una regresión logística con varias variables de predicción (número de compras, importe gastado, ubicación, estado civil, etc.) y calcular la probabilidad de que los clientes individuales compren un producto. Si nos basamos en el coste de los incentivos y los beneficios de llegar a los clientes adecuados, el umbral de probabilidad puede ser superior o inferior a 0,5.
¡Descarga la plantilla gratuita para poder realizar tú clasificación binaria en Excel!