En la Parte 1 de esta entrada de blog, presentamos las distribuciones de probabilidad de ventas censuradas. Ahora, pongámonos manos a la obra y veamos qué significa la capacidad finita en la práctica. Comenzamos señalando las sutiles trampas en las que uno podría caer inadvertidamente para luego compartir cómo solemos resolver la situación.
Confundir ventas con demanda
Es posible que tu jefe te pida que ignores por completo esta entrada del blog para obtener tanto un “primer modelo sencillo” como una “estimación aproximada de la calidad del modelo”. Podrías respirar hondo y hacerlo, es decir, interpretar directamente las cifras de ventas como demanda real.
¿Qué podría suceder? Una comparación ingenua de una demanda prevista imparcial con las ventas observadas normalmente producirá el veredicto de que "el pronóstico está sesgado, es una sobreestimación": La capacidad finita redujo el valor de las ventas observadas. Cuanto más a menudo se alcance la capacidad máxima, más se verán afectadas las ventas. En la práctica, lo especialmente perjudicial es que el impacto de la capacidad limitada variará considerablemente entre los distintos grupos de productos: los productos frescos deben agotar de vez en cuando para evitar el desperdicio y la capacidad se ve afectada periódicamente. Los productos no perecederos se reabastecen con frecuencia de manera que nunca se agoten, y la capacidad casi nunca se ve comprometida. Una comparación entre grupos de productos se verá enormemente afectada por el diferente impacto de las distintas estrategias de capacidad/almacenamiento.
Pero, ¿acaso podríamos obtener un modelo imparcial en primer lugar? Eso es improbable: durante el entrenamiento, su modelo aprende directamente una demanda sesgada. De una distribución de demanda completa con una media de 9,7, el modelo solo aprendería la distribución restringida y censurada, que tiene un valor medio inferior, como se puede ver en la figura siguiente:

El círculo vicioso de una previsión subestimada que lleva a un pedido bajo, a más roturas de stock, a una previsión aún más subestimada, se pone en marcha de forma perpetuamente acelerada, mientras que la evaluación confirma que "todo está bien" y que "la previsión de ventas es correcta". En otras situaciones, las limitaciones de capacidad durante la fase de entrenamiento y evaluación pueden variar por cualquier motivo, con consecuencias perniciosas para la interpretación del sesgo observado (o la falta del mismo).
Si leíste hasta aquí, probablemente entiendas que las ventas y la demanda no son equivalentes, y podrás argumentar convincentemente ante tu gerente para tomar la ruta más larga y precisa.
Seleccionar días en los que la demanda no fue alta
El error mencionado anteriormente es bastante intuitivo: la demanda y las ventas son cantidades diferentes, y equipararlas cuando no lo son resulta claramente problemático. El segundo escollo que quiero que evites es un poco más sutil (reserva una reunión de dos horas para explicárselo a tu jefe): Una idea que suele surgir en los proyectos es capacitar o evaluar modelos solo con los eventos en los que no se alcanzó la capacidad máxima, es decir, en aquellos días en los que las ventas no saturaron la capacidad. Es decir, todos los eventos en los que se produjo censura (las ventas son iguales a las existencias) se eliminan del entrenamiento o la evaluación, y solo se conservan los valores de ventas que son inferiores a la capacidad. Los eventos restantes no tienen restricciones, lo que, se espera, hará que la capacitación y la evaluación sean imparciales.
¡Sin embargo, esto no es en absoluto así! Al seleccionar aquellos días en los que no se alcanzó la capacidad máxima, se seleccionan naturalmente aquellos eventos de fluctuación negativa en los que la demanda resultó ser, por casualidad, particularmente baja. Es decir, se introduce un sesgo de selección al centrar en aquellos eventos que son valores atípicos negativos. Dicho conjunto de datos de entrenamiento o evaluación no refleja la demanda real de manera imparcial, sino que produce una demanda con sesgo negativo. Los eventos en los que se alcanzó la capacidad máxima son aquellos en los que la demanda real fue, debido al azar, ligeramente superior a la media. Estos eventos serían necesarios para registrar un valor global imparcial. En la figura siguiente, vemos por qué eliminar los eventos de alcance de capacidad puede ser incluso peor que capacitar con el conjunto de datos completo de valores de ventas (es decir, con una demanda restringida): Las ventas medias condicionadas a no alcanzar la capacidad (línea discontinua verde) son inferiores a las ventas medias generales (línea roja), porque las ventas medias con alcance de capacidad (línea negra) contribuyen a valores más altos. Recuerde: Lo que nos gustaría aprender o lo que predijimos es la demanda media representada por la línea azul de puntos y rayas.

Estadísticamente hablando, los días en que no se agotaron las existencias no son representativos de todos los días, sino que son aquellos en los que menos gente acudió al supermercado. Quizás las fresas no estaban frescas, o una campaña promocional de mangos hizo que la gente se marchara; en cualquier caso, estaríamos seleccionando valores atípicos y no podemos esperar que sean imparciales.
En caso de que quieras optar por la estrategia inversa y seleccionar aquellos eventos en los que se alcanzó la capacidad, estarás sesgando aún más tu conjunto de datos: las ventas medias no tendrán entonces nada que ver con la previsión, ya que reproducen exactamente la estrategia de ajuste de capacidad; las ventas, entonces, simplemente coinciden siempre con la capacidad.
Separar los datos de evaluación entre “se alcanzó la capacidad” y “no se alcanzó la capacidad” también viola un principio importante de la evaluación de pronósticos: nunca dividir los datos según un criterio que se desconocía en el momento del pronóstico. Esta división casi siempre induce un sutil sesgo de selección en los grupos resultantes. Un efecto similar se analiza en la entrada del blog "No siempre debiste haberlo sabido mejor".
Cómo evitar los escollos
En lo que respecta al entrenamiento, la conclusión es alarmante: no hay forma de evitar un entrenamiento “adecuado” empleando métodos como la regresión Tobit, que tiene en cuenta que observar 12 cuando la capacidad es 12 solo establece un límite inferior para la demanda real en ese día. En otras palabras, necesitamos un método de regresión que “entienda” que 12 artículos vendidos significa “12 o más artículos en demanda”. La capacidad finita realmente elimina información: un modelo que emplea ventas con capacidad limitada como entrada, incluso haciéndolo correctamente, siempre será menos preciso que un modelo que emplea una demanda sin restricciones.
En la evaluación del modelo, se puede tener en cuenta la capacidad finita de forma explícita: las ventas esperadas con una capacidad finita determinada se pueden calcular a partir de la distribución de probabilidad censurada. Nuevamente, recuerde que las ventas esperadas bajo restricciones de capacidad no son solo el valor menor entre “el pronóstico de demanda sin restricciones” y “la capacidad”, sino que debe considerar la distribución de probabilidad completa con restricciones. Se concluye entonces con una comparación como la siguiente:
| Predicción de demanda media sin censura | Predicción de ventas medias censuradas | Mean actual sales |
| 17.84 | 14.35 | 14.66 |
En este caso, se confirmaría que las ventas reales (luego de las limitaciones de capacidad) coinciden bien con las expectativas.
Probabilidad prevista de alcance de capacidad y frecuencia real de alcance de capacidad
Si bien comparar las ventas previstas con las ventas reales, considerando las limitaciones de capacidad, ayudará a establecer el sesgo (o la falta del mismo) del pronóstico y es un buen primer paso para determinar su calidad, a menudo se encuentra cierto escepticismo en el siguiente sentido: “Reconocemos que el pronóstico es imparcial en general, pero tememos que esté sobreestimando y subestimando de manera desafortunada, lo que conlleva más desperdicio y más faltantes de existencias de los necesarios”.
En otras palabras, a las partes interesadas en la previsión no solo les interesa la ausencia global de sesgo, sino la ausencia de sesgo en todas las situaciones de demanda posibles. No quieren subestimar los días de ventas récord ni compensarlo sobreestimando los días de ventas bajas. En individuo, cuando se alcanza la capacidad máxima, las partes interesadas quieren cerciorar de que el impacto sea mínimo (solo unos pocos clientes se quedan con su demanda insatisfecha); cuando hay desperdicio, no debe ser en cantidades enormes.
Para abordar este temor válido (es fácil imaginar pronósticos terribles que no tienen sesgo global y que generan mucho desperdicio y clientes insatisfechos), propongo segregar los datos según la probabilidad de alcanzar la capacidad prevista. Es decir, dado un pronóstico y un determinado nivel de existencias instalado ese día, se calcula la probabilidad prevista de que las existencias se agoten: la probabilidad prevista de que se alcance la capacidad máxima. Esa probabilidad de alcanzar la capacidad es cercana a 0 cuando el nivel de existencias se establece en un valor grande con respecto al pronóstico (por ejemplo, cuando el nivel de existencias se establece en el cuantil 0,99 de la distribución de la demanda, entonces tenemos un 99% de certeza de no alcanzar el nivel de capacidad). La probabilidad de alcanzar la capacidad máxima es cercana a 1 cuando el nivel de existencias es pequeño, por ejemplo, cuando se establece en el cuantil 0,01 de la distribución de la demanda.
Para cada predicción, tenemos una probabilidad prevista de alcanzar la capacidad (por ejemplo, 0,42) y un impacto real en la capacidad (alcance o no impacto). Este tipo de eventos aislados de acierto/no acierto son meramente anecdóticos: la mera existencia de algunos pares “improbables” “probabilidad de acierto de capacidad predicha = 0,05, pero la capacidad fue realmente alcanzada” no significa que la probabilidad predicha sea engañosa. Solo cuando se dispone de una colección de muchas predicciones probabilísticas y eventos de acierto/no acierto asociados, las probabilidades predichas pueden verificar rigurosamente. Para ello, se recopilan muchos pares de probabilidades de impacto de capacidad (números de punto flotante entre 0 y 1) e impactos de capacidad (resultados discretos, 1 para “es alcanzado” y 0 para “no es alcanzado”). Agrupe estos datos en categorías según el impacto previsto en la capacidad: alrededor de 0, alrededor de 0,10, alrededor de 0,20, etc. Para cada bucket, luego se calcula la media de la tasa de aciertos de capacidad prevista y real. Cuando se predice que se producirá un pico de capacidad en el 0,10 de los casos, esperamos que en aproximadamente el 10% de esos casos se produzca realmente dicho pico.
Llamamos “calibradas” a las probabilidades pronosticadas cuando podemos confiar en ellas en el sentido de que un impacto de capacidad pronosticado de 0,70 ocurre en el 70% de esos casos (obtenga más información sobre la calibración en la publicación del blog Calibración y precisión: los dos aspectos independientes de la calidad del pronóstico). Un pronóstico calibrado permite tomar decisiones estratégicas de reposición: establezca el nivel de existencias de manera que espere quedar sin existencias en el 0,023 de los días, y realmente se quedará sin existencias el 2,3% de los días. Esto es gestión de riesgos: se cuantifica el riesgo de forma calibrada y se asumen conscientemente aquellos riesgos que merece la pena correr.
En la figura siguiente, los círculos negros muestran eventos individuales de impacto de capacidad: la capacidad fue alcanzada (parte superior de la figura) o no (parte inferior de la figura). Cuando agrupamos todas las predicciones, la tasa media de aciertos de capacidad predicha de 0,82 coincide con la frecuencia medida (círculo verde). Cuando agrupamos por probabilidad de impacto de capacidad cercana a 0, a 0,1, a 0,2, etc., vemos que el pronóstico de impacto de capacidad está calibrado: Los círculos azules están cerca de la diagonal.

Evaluar las probabilidades y frecuencias de agotamiento de la capacidad previstas frente a las reales no es suficiente para garantizar un buen pronóstico: cuando se almacenan 1000 artículos, no hay diferencia en el comportamiento de agotamiento de la capacidad entre un pronóstico de 5, 10 o 100; en todos los casos, el evento termina en la misma categoría: "la capacidad ciertamente no se agotará". Por lo tanto, un análisis del sesgo en las ventas previstas debería complementar el análisis de la tasa de aciertos de capacidad para verificar que el pronóstico no esté sesgado tanto en lo que respecta a las restricciones de capacidad como a las velocidades.
En general, agrupar por probabilidad de alcanzar la capacidad prevista o por ventas previstas sigue la regla “mirar hacia el futuro: evaluar lo que se predice, en lugar de mirar hacia atrás” para evitar el sesgo retrospectivo descrito en la entrada del blog No siempre debiste haberlo sabido mejor.
Conclusión: la gestión del riesgo requiere herramientas probabilísticas
Las previsiones puntuales, que generan un único número como predicción, no son adecuadas para abordar cuestiones probabilísticas estratégicas como qué nivel de existencias puede cerciorar una tasa de rotura de stock inferior al 1%. Cuando se plantea una pregunta probabilística —y todas las preguntas sobre riesgo son probabilísticas— se necesitan herramientas probabilísticas para responderla. Deberás mostrar a tu gerente al menos una comprensión básica de “valor esperado”, “censura” y “distribución”.
Siempre que la capacidad tenga un impacto en el mundo real (y casi siempre lo tiene), debemos tomar en serio las limitaciones de capacidad. No debemos intentar comprender los acontecimientos a posteriori (“ese día se alcanzó la capacidad máxima, ¿cuál fue la causa exacta?”), sino que debemos mirar hacia adelante y evaluar la calibración de las previsiones segregándolas por ventas previstas y probabilidad prevista de alcanzar la capacidad máxima.
Todos los ejemplos de esta entrada de blog se construyeron en un entorno tipo sandbox, asumiendo una previsión de demanda perfecta que produce una distribución con buen comportamiento. Te protegí de todos los problemas más complejos que normalmente encontrarías en situaciones del mundo real. Sin embargo, incluso en este sencillo escenario, vemos lo fácil que es engañar a nuestra intuición. Por lo tanto, es importante no seguir simplemente la primera idea que surge sobre cómo resolver un problema de evaluación ("agrupemos por capacidad alcanzada versus capacidad no alcanzada"), sino adoptar una perspectiva escéptica y primero simular qué haría el método en un entorno ideal.



