Calibration and sharpness

Blog

Calibración y precisión: dos aspectos independientes de la calidad de las previsiones

¿Qué es un buen pronóstico?

Los pronósticos son como los colegas: la confianza es el factor más importante (nunca quieres que tus colegas te mientan), pero entre tus colegas de confianza, prefieres reunirte con aquellos que te cuentan las historias más interesantes.

 

¿Qué quiero decir con esta metáfora? Queremos que las previsiones sean “buenas”, “exactas” y “precisas”. Pero, ¿qué queremos decir con eso? Vamos a afinar nuestras ideas para articular y visualizar mejor lo que esperamos de un pronóstico. Existen dos formas independientes de medir la calidad de un pronóstico, y es necesario considerar ambas —calibración y precisión— para comprender satisfactoriamente su rendimiento.

Calibración de pronóstico

Para simplificar, comencemos con la clasificación binaria: el resultado pronosticado solo puede tomar dos valores, “verdadero o falso”, “0 o 1”, o similares.

Para ser más concretos, consideremos los emails y si el usuario de su buzón los marcará como spam. Un sistema predictivo genera, para cada email, un porcentaje de probabilidad de que este correo sea considerado spam por el usuario (lo que tomamos como referencia). Por encima de cierto umbral, digamos el 95%, el email acaba en la carpeta de spam.

Para evaluar este sistema, puede, en primer lugar, comprobar la calibración del pronóstico: para aquellos emails a los que se les asigna una probabilidad de spam del 80%, la fracción de spam verdadero debería rondar el 80% (o al menos no diferir de forma estadísticamente significativa). Para aquellos emails a los que se les asignó una probabilidad de spam del 5%, la fracción de spam verdadero debería ser de alrededor del 5%, y así sucesivamente. Si esto es así, podemos confiar en el pronóstico: una supuesta probabilidad del 5% es, en efecto, una probabilidad del 5%.

Una previsión calibrada nos permite tomar decisiones estratégicas: por ejemplo, podemos establecer el umbral de la carpeta de spam adecuadamente y podemos estimar el número de falsos positivos/falsos negativos por adelantado (es inevitable que algo de spam llegue a la bandeja de entrada y que algunos emails importantes acaben en la carpeta de spam).

Precisión de pronóstico

¿Es la calibración el único método para predecir la calidad? ¡No exactamente! Imaginemos un pronóstico que asigne una probabilidad general de spam del 85% a cada email. Esa previsión está bien calibrada, ya que el 85% de todos los emails son spam o maliciosos. Puedes confiar en esa predicción; no te está mintiendo, pero es bastante inútil: no puedes tomar ninguna decisión útil basándote en la afirmación trivial y repetida de que “la probabilidad de que este email sea spam es del 85%”.

Un pronóstico útil es aquel que asigna probabilidades muy diferentes a distintos emails: 0,1% de probabilidad de spam para el email de tu jefe, 99,9% para anuncios farmacéuticos dudosos, y que permanece calibrado. Los estadísticos denominan a esta propiedad de utilidad «agudeza» , ya que se refiere a la amplitud de la distribución prevista de resultados, dada una predicción: cuanto más estrecha, más aguda.

Un pronóstico no individualizado que siempre produce una probabilidad de spam del 85% es sumamente impreciso. La máxima nitidez significa que el filtro de spam asigna solo un 0% o un 100% de probabilidad de spam a cada email. Este grado máximo de precisión –determinismo– es deseable, pero irreal: dicha predicción (muy probablemente) no estará calibrada, y algunos emails marcados con un 0% de probabilidad de spam resultarán ser spam, y algunos emails marcados con un 100% de probabilidad de spam resultarán ser de tu pareja.

¿Cuál es entonces el mejor pronóstico? No queremos renunciar a la confianza, por lo que el pronóstico debe mantener calibrado, pero dentro de los pronósticos calibrados, queremos el más preciso. Este es el paradigma de pronóstico probabilístico, que fue formulado por Gneiting, Balabdaoui y Raftery en 2007 (J. R. Estadístico. Soc. B 69, Parte 2, págs. 243–268): Maximice la nitidez, pero no ponga en peligro la calibración. Haz la afirmación más contundente posible, siempre que siga siendo cierta. Como con nuestros colegas, cuéntame la historia más interesante, pero no me mientas. Para un filtro de spam, el pronóstico más preciso asigna valores como el 1% a los emails que claramente no son spam, el 99% a los emails que claramente son spam y algún valor intermedio a los casos difíciles de decidir (de los cuales no debería haber demasiados).

Recalibra tu cadena de suministro

Tendencias globales y perspectivas del sector, entregadas mensualmente con el boletín informativo Supply Chain Compass. 

Una pintura abstracta de calibración y nitidez

Visualicemos la calibración y la precisión de los clasificadores de spam en la siguiente figura. Un clasificador de spam se representa mediante una colección de círculos del mismo color, de manera que el tamaño de cada círculo refleja el número de emails que fueron etiquetados con la respectiva probabilidad de spam predicha . El eje x representa la probabilidad de spam prevista, el eje y la frecuencia de spam que se produce . La escala de los ejes se elige de forma que se detallen las probabilidades que son cercanas a cero ("casi con seguridad no") o cercanas a uno ("casi con seguridad").

Un círculo, un conjunto de predicciones individuales de probabilidad de spam que asumen el mismo valor, se calibra cuando se encuentra sobre la línea de calibración, la línea diagonal negra para la cual coinciden las probabilidades predichas y las frecuencias medidas. Cuanto más se aleje un círculo de la línea de calibración, mayor será la discrepancia entre la predicción y el valor real, y más descalibrado estará el pronóstico. Cuando un círculo se encuentra por encima de la línea de calibración, las predicciones asociadas han subestimado la probabilidad real; cuando se encuentra por debajo de la línea de calibración, las predicciones son sobreestimaciones. En la parte inferior derecha y superior izquierda, encontrarías predicciones desastrosamente malas que asignan una probabilidad muy alta a eventos raros, o viceversa.

Consideremos ahora los círculos verdes: las probabilidades pronosticadas y las frecuencias reales coinciden bastante bien en los seis círculos, lo que refleja un pronóstico perfectamente calibrado y bastante preciso. El único círculo azul está calibrado (toca la línea diagonal), pero refleja un pronóstico inútil e impreciso que solo produce “85%” cada vez que se le pregunta cuál es la probabilidad de que un email sea considerado spam. Es una predicción defensiva: no errónea, pero inútil. Los círculos naranjas reflejan un filtro de spam demasiado confiado: produce un 0,2% o un 99,8% como pronóstico de spam; afirmaciones contundentes, ¡que serían útiles si fueran ciertas! Sin embargo, de los emails que “casi con toda seguridad no son spam”, encontramos que alrededor del 5% sí lo son, mucho más que el 0,2% previsto. De los emails considerados “casi con seguridad spam” (99,8% de probabilidad predicha), solo alrededor del 95% resultan ser spam real. Esa previsión naranja es más precisa que la verde, pero perdió su calibración. La supuesta certeza agregada no sirve de nada porque no podemos confiar en el pronóstico.

El círculo rojo refleja una previsión imprecisa y no calibrada: este filtro de spam siempre asigna la probabilidad “25%” a cada email; esto es incorrecto (la probabilidad general es de alrededor del 80%) e inespecífico.

El paradigma de “máxima nitidez sujeta a calibración” significa que se quiere empujar los círculos lo más lejos posible hacia las áreas “casi seguras”, hacia la parte inferior izquierda y la parte superior derecha, mientras permanecen pegados a la línea de calibración. Nuestro objetivo es lograr afirmaciones contundentes y prácticas como “1% de spam” o “99% de spam”, y que además sean veraces.

calibration-and-sharpness-body-01

Calibración y precisión en las previsiones de demanda

En Blue Yonder no nos dedicamos a filtrar spam, pero sí elaboramos pronósticos, por ejemplo, de la demanda de los clientes. Nuestro objetivo no es binario (spam/no spam), sino numérico. Gran parte del argumento anterior se puede volver a emplear: un pronóstico calibrado pero inútil asigna la demanda promedio general (promediada entre productos, ubicaciones y días) a cada producto-ubicación-día en el futuro: “Ese producto se venderá 1,6 veces en promedio mañana”, repetido para cada producto, día y ubicación, es una afirmación verdadera y calibrada para un supermercado típico, pero no una base significativa para el reabastecimiento ni para ninguna otra decisión comercial. Por otra parte, un pronóstico que pretende ser sumamente preciso (“Mañana, en la tienda 123, venderá exactamente 17 pepinos”) es poco realista y obstaculizaría cualquier decisión estratégica significativa en relación con el desperdicio y la falta de existencias.

¿Hasta qué punto pueden ser precisas las previsiones del sector minorista? En el comercio minorista, tratamos con muchos clientes potenciales (muchos más de 100 al día), cada uno de los cuales puede comprar un determinado producto con poca probabilidad: cuando entras en un supermercado, solo compras una pequeña fracción de los productos que se ofrecen. Si además suponemos que todos los productos tienen una disponibilidad perfecta (nunca se agotan las existencias) y que cada cliente compra como máximo una unidad de un producto determinado, se conoce la máxima precisión teórica posible: se trata de la distribución de Poisson, cuyas propiedades analizamos en mi anterior entrada del blog «Pronosticar pocos es diferente». Es decir, la distribución de las ventas en torno a la media prevista sigue una distribución de Poisson: una predicción media de “5” viene con una probabilidad finita de que la demanda real pueda ser, por ejemplo, 3 (14% de probabilidad), 4 (18% de probabilidad), 5 (18% de probabilidad), 6 (15% de probabilidad), 7 (10% de probabilidad), etc. Estas probabilidades pronosticadas pueden, al igual que nuestro filtro de spam, verificar en la práctica: cuando asignamos al evento “13 pepinos” una probabilidad del 12%, esperamos que, en promedio, el 12% de esos casos resulten en la venta de 13 pepinos. Una vez establecida la calibración, podemos emplear la previsión para tomar decisiones estratégicas, como equilibrar el costo de la falta de existencias y el del desperdicio.

En la práctica, los fuertes supuestos que subyacen a la distribución de Poisson a menudo no se cumplen: la gente compra más artículos de un producto determinado, los artículos se agotan y no se conocen todos los factores que influyen en la demanda, lo que hace que pretender conocer la probabilidad media de compra sea difícil de lograr. No obstante, la distribución de Poisson sigue siendo un caso ideal aproximado, aunque a veces inalcanzable, que proporciona una gran orientación. En nuestras soluciones de pronóstico, comparamos el rendimiento obtenido en la práctica con diferentes límites teóricos para estimar cuán cerca estamos de lo que es posible en determinadas circunstancias. Esto nos ayuda a identificar las oportunidades de mejora más fáciles de aprovechar, los pronósticos que ya son excelentes y las anomalías que requieren una investigación más profunda.

Cómo se parecen los buenos pronósticos a los buenos colegas

El paradigma de “maximizar la nitidez de las distribuciones predictivas sujetas a calibración” (Gneiting, Balabdaoui y Raftery) es, por lo tanto, increíblemente útil para hacer tangible el rendimiento de los pronósticos, en cualquier campo. En última instancia, en toda situación de pronóstico, queremos poder decir, con confianza: Este es un pronóstico calibrado que es lo más preciso posible.

Esa predicción es como tu colega más entretenido, que cuenta historias geniales y da consejos útiles, pero que nunca te miente.