El error porcentual absoluto medio (MAPE) cumplió su función y ahora debería retirar.

Blog

El error porcentual absoluto medio (MAPE) cumplió su función y ahora debería retirar.

Según Gartner (Encuesta de Gartner sobre el éxito en la planeación de ventas y operaciones de 2018), la métrica de evaluación más popular para las previsiones en la planeación de ventas y operaciones es el error porcentual absoluto medio (MAPE). Esto tiene que cambiar. Las previsiones modernas se refieren a pequeñas cantidades a un nivel desagregado, como por ejemplo producto-ubicación-día. Para pronósticos tan detallados, los valores MAPE son extremadamente difíciles de evaluar y, por lo tanto, no se consideran indicadores útiles de la calidad del pronóstico. El MAPE también induce profundamente a error a los usuarios al exagerar algunos problemas y disfrazar otros, incitándolos a elegir pronósticos con sesgo sistemático. Las situaciones en las que MAPE resulta adecuado son cada vez más raras. Esto no es teoría árida: simulamos un supermercado que se basa en un valor de pronóstico que optimiza el MAPE y que se introduce en el reabastecimiento. El exceso o la falta de existencias en los productos de alta y baja rotación provocan rápidamente el cierre de la tienda.

Cuando los errores absolutos y relativos se contradicen, ¿en quién debemos confiar?

Predijiste una demanda de 7,2 manzanas y finalmente se vendieron 9. Predijiste que se venderían 91,8 botellas de agua y se vendieron 108. Predijiste 1,9 latas de atún y solo se vendió una. ¿Cómo se evalúan estos errores de pronóstico? Un método sencillo consiste en calcular la desviación absoluta de la predicción con respecto al valor real y dividirla por dicho valor real, es decir, el error absoluto relativo, posiblemente como un valor porcentual (error porcentual absoluto, APE). Eso suena mucho más complicado de lo que realmente es: proponer el APE como primer intento para la “evaluación de la calidad del pronóstico” es bastante típico. Para los tres ejemplos, se obtienen APE aparentemente moderados del 20% (=|7,2-9|/7,2), modesto 15% (=|91,8-108|/108) y un alarmante 90% (=|1.9-1|/1), respectivamente. El MAPE, error porcentual absoluto medio, es la media aritmética de estos tres porcentajes y asciende al 41,67%. Estos porcentajes de error indican que el pronóstico sobre el atún es peor que el de las manzanas, y que el pronóstico sobre las botellas supera a los demás. Pero, ¿refleja esto realmente la calidad del pronóstico? Vuelva a mirar el principio de esta sección: la gran diferencia absoluta entre las botellas de agua pronosticadas y las reales es preocupante, y su pequeño error relativo no puede tranquilizarle realmente. Por otro lado, el error del 90% en el atún podría deber a la mala suerte (o a la suerte) aleatoria; se trata de un solo artículo. ¿Debes acallar tu intuición y confiar ciegamente en los simios avanzados? En consecuencia, ¿debería revisar la previsión de pesca de atún y dejar la previsión de pesca de agua tal como está? Si se emite otra previsión, con un MAPE global de solo el 30%, ¿es necesariamente mejor esa nueva previsión?

¡Por supuesto, bajo ninguna circunstancia te pediría seriamente que ignorases tu juicio humano! Esta desagradable paradoja se resuelve a continuación: el MAPE no es adecuado para pronósticos probabilísticos modernos a nivel granular (es decir, en producto-ubicación-día, en el que pueden ocurrir números “pequeños” o incluso “0”), debido a varios problemas intolerables e irresolubles. El MAPE de un pronóstico no nos dice qué tan bueno es ese pronóstico, sino cuán extraño es el comportamiento del APE.

Ignorar la escala deliberadamente: cuándo los errores porcentuales pueden tener sentido.

Antes de adentrarnos en la previsión detallada en el sector minorista (a nivel de producto, ubicación y día), supongamos que queremos predecir una cantidad mucho mayor: el producto interno bruto (PIB) anual de los países, medido en dólares estadounidenses. Dicha previsión podría emplear para definir políticas para países enteros, y estas políticas deberían ser igualmente aplicables a países de diferentes tamaños. Por lo tanto, es justo ponderar a cada país por igual en este caso práctico: un error del 5% en el PIB de EE. UU. (unos 25 billones de dólares) perjudica tanto como un error del 5% en el PIB de Tuvalu (unos 66 millones de dólares, 380.000 veces menor que el PIB de EE. UU.). Aquí, el error porcentual absoluto (EPA) tiene sentido: el PIB real nunca está cerca de 0 (lo que causaría un terrible dolor de cabeza al dividir por él, hablaré de eso más adelante), y el objetivo del pronóstico no es acertar con el PIB global del planeta, sino aproximar lo máximo posible para cada país individual, en escalas que van desde millones hasta billones. Minimizar el error absoluto total del modelo (es decir, El error (expresado en dólares estadounidenses, no en porcentajes) pone en primer plano a las economías más grandes y desestima a las pequeñas. No se pondera a cada país por igual, sino según su poder económico. Un modelo con un margen de error aceptable del 3% en el PIB de EE. UU. y un margen de error inaceptable del 200% en el PIB de Tuvalu parecería ser “mejor” que un modelo con un margen de error del 4% en el PIB de EE. UU. y un margen de error del 10% en el PIB de Tuvalu en términos absolutos de dólares estadounidenses. Por otro lado, el MAPE apunta a emplear el segundo pronóstico, que sacrifica una gran precisión absoluta del PIB de EE. UU. (1% de 25 billones de dólares estadounidenses) por una modesta mejora absoluta de la precisión en Tuvalu (190% de 66 millones de dólares estadounidenses). El PIB de Estados Unidos es mucho mayor que el de Tuvalu, pero uno, conscientemente y con razón, decidiría tratarlos por igual. Tanto Estados Unidos como Tuvalu pueden considerar “grandes” en el sentido de que no cabe esperar que las fluctuaciones estadísticas o la “mala suerte” sean responsables del error de pronóstico; es decir, las desviaciones normalmente serán estadísticamente significativas e indicarán un potencial de mejora del modelo.

En resumen, siempre que se deba tratar de igual manera a instancias individuales de un pronóstico de diferentes valores, es decir, siempre que no tengamos problema en comparar peras enormes con naranjas minúsculas, el MAPE puede tener sentido. Pero, ¿es siempre justo un trato igualitario?

Navegación estable en todas las condiciones

Preparar para cualquier eventualidad con el boletín informativo The Supply Chain Compass. Registrar hoy para recibir mensualmente información sobre las tendencias globales y las perspectivas del sector.

Tratarlos a todos por igual suena bien en general, pero no en la evaluación de pronósticos probabilísticos.

Volvamos a nuestro ejemplo anterior sobre comestibles y hablemos de manzanas, latas de atún y botellas. Aquí, comparar APE tiene poco sentido, por dos razones.

Por definición, un producto de venta lenta se vende con menos frecuencia que uno de venta rápida. Por lo tanto, el impacto comercial de un pronóstico poco fiable sobre productos de baja rotación es mucho menos grave que el de un pronóstico igualmente poco fiable sobre productos de alta rotación. Una pérdida de ventas del 5% debido a la falta de existencias de algún producto marginal de baja rotación es simplemente un inconveniente para el vendedor, mientras que una pérdida de ventas del 5% en el artículo más vendido puede ser bastante sustancial. Al final del día, lo que cuenta para tu negocio son las cifras absolutas. ¿Sobreestimas la demanda total de tu producto principal en EE. UU. en un 20%? Probablemente tengas un problema y necesites gestionar un gran volumen de existencias sin vender, lo que incluso podría poner en peligro todo tu negocio. ¿Sobreestimas en un 20% la demanda total de ese mismo producto en Tuvalu? Nada en contra de Tuvalu (¡de verdad que no me ofende!), pero probablemente puedas relajarte, ya que ese error no hundirá tu negocio. En surtidos o mercados pequeños se puede tolerar un margen de error relativo mucho mayor que en las categorías principales de productos básicos. ¿Por qué dar la misma importancia a artículos o grupos de clientes marginales que a los clientes realmente importantes?

A esta diferencia obvia (pequeño es pequeño y grande es grande), se suma un efecto estadístico de apariencia sutil pero importante: la dependencia de la escala en la precisión de pronóstico alcanzable. A veces es inevitable aplicar un descuento del 10% a un producto que se vende 10 veces al día, incluso con una previsión perfecta (con incertidumbre de Poisson). Ofrecer un 10% de descuento en un producto que se vende 10.000 veces al día indica claramente que existe un problema. El producto de venta lenta no solo es menos importante para el negocio que el de venta rápida, sino que, además, conlleva errores relativos mayores, como se explica con más detalle en las entradas anteriores del blog " Pronosticar pocos es diferente, parte 1 " y " parte 2".

En cuanto a las previsiones de precios de los supermercados mencionadas anteriormente, probablemente solo tuviste mala suerte con el atún ese día. Las 16 botellas de agua adicionales parecen menos justificables. Por lo tanto, el error porcentual absoluto (APE) no refleja bien la calidad de pronóstico alcanzable, ni en términos comerciales (pondera por igual elementos desiguales) ni en términos estadísticos (su valor alcanzable necesita el contexto del valor pronosticado en sí).

La gestión de la reposición mediante el MAPE conduce a niveles de existencias catastróficos.

En otras palabras, el MAPE no es un buen indicador de la calidad del pronóstico en sí mismo: que se alcancen el 20%, el 70% y el 90% en tres situaciones diferentes no tiene un significado interpretable inmediato. Dado un determinado valor MAPE, no se debe llegar a ninguna conclusión precipitada. Pero incluso aceptando que un valor MAPE en sí mismo dice poco o nada sobre la calidad general de su modelo, podría esperar, no obstante, que, para una situación de pronóstico determinada, el pronóstico ganador según el MAPE debería ser el mejor. Como explicaré a continuación, también debes abandonar esa expectativa más débil.

Consideremos un supermercado que ofrece muchos productos diferentes, desde productos de baja rotación que se venden aproximadamente una vez al trimestre hasta productos de alta rotación que se venden 100 veces al día. El reabastecimiento de artículos se realiza mediante un sistema que selecciona la previsión MAPE óptima diaria y realiza pedidos anticipados en función de ella. Es decir, elige el valor de pronóstico para el cual el MAPE es el más bajo. ¿Cómo funcionaría ese supermercado?

Para simplificar, centrémonos en 5 productos ejemplares: manzanas, plátanos, anacardos, pitayas y berenjenas, con tasas de venta diarias promedio reales de 0,01, 0,1, 1, 10 y 100: el más lento, las manzanas, se vende aproximadamente una vez por trimestre, el más rápido, las berenjenas, se vende 100 veces al día (está en lo cierto si sospecha que los números no se inventaron para lograr plausibilidad en el mundo real, sino más bien claridad y simplicidad matemática). En este experimento mental, conocemos estas tasas de venta, y son la mejor previsión posible para cada producto según su construcción. Empleando la distribución de Poisson, podemos simular qué sucede y cuál es el valor pronosticado con el mejor MAPE.

Para cada producto, la siguiente tabla muestra la tasa de ventas real (que es la mejor previsión diaria sin sesgo), su MAPE simulado, la previsión optimizada ganadora del MAPE, su MAPE simulado y su sesgo resultante:

ProductoTasa de venta diaria real, pronóstico diario imparcialMAPE de la tasa de ventas realPronóstico diario ganador del MAPEMAPE de pronóstico ganador de MAPESesgo de pronóstico del pronóstico ganador del MAPE
manzanas0.0199%10.25%+9,900%
Plátanos0.190%12.5%+900%
Anacardos123.3%123.3%0%
pitahaya1031%929%-10%
Berenjenas1008.11%998.05%-1%

Recuerda que la tasa de venta diaria real es, sin duda, el mejor dato posible para el sistema de reposición, ya que, por definición, es el valor medio de las ventas esperadas. ¿Qué sucede si, en cambio, la reposición emplea la previsión ganadora del MAPE? El supermercado acumula existencias de los productos de baja rotación: cada día se repone una manzana, un plátano y un anacardo, ¡pero las manzanas solo se venden una vez cada 100 días y los plátanos una vez cada 10 días! Las manzanas y los plátanos se acumulan, los anacardos se venden bien, mientras que la demanda de pitahaya no se satisface: en promedio, un cliente que quería comprar una pitahaya se irá sin completar su compra. Para las berenjenas de rápida rotación, el error del 1% podría ser excusable; sin embargo, es llamativo que el pronóstico “mejor” siempre esté sesgado, a menos que la tasa de venta real sea igual a 1.

Los números calculados para la tabla anterior asumen un mundo perfecto en el que los pronosticadores disfrutan trabajando con un modelo con una incertidumbre de Poisson mínima. Para un modelo más realista en el que existe cierta incertidumbre adicional moderada (técnicamente hablando: sobredispersión), la situación empeora inmediatamente:

ProductoTasa de venta diaria real, pronóstico diario imparcialMAPE de la tasa de ventas realPronóstico diario ganador del MAPEMAPE de pronóstico ganador de MAPESesgo de pronóstico del pronóstico ganador del MAPE
manzanas0.0199%10.3%+9,900%
Plátanos0.190%13%+900%
Anacardos125%125%0%
pitahaya1073%653%-40%
Berenjenas10049%7240%-28%

La diferencia entre el valor MAPE calculado al precio de venta real y el valor MAPE del pronóstico ganador del MAPE aumentó sustancialmente. En otras palabras, el usuario podría pensar que la “evidencia” de que el pronóstico ganador del MAPE es mejor que el otro es incluso más estable que la anterior. Sin embargo, el pronóstico óptimo de MAPE está más sesgado que en la situación ideal: la subestimación de la producción de pitahaya y berenjenas asciende ahora al 40% y al 28%, respectivamente; la consecuencia sería una situación de desabastecimiento masivo. A continuación, veremos por qué una mayor incertidumbre significa que “debemos jugar a lo seguro” y por qué eso significa que “debemos jugar con cautela”.

¡Está claro que un supermercado que siga con esta estrategia no sobrevivirá mucho tiempo! Los problemas con el MAPE van, por lo tanto, más allá de la interpretabilidad empresarial (no es adecuado para responder a la pregunta "¿qué tan buena es la previsión?"). pero potencialmente puede generar graves problemas operativos (elegir un pronóstico indiscutiblemente peor en lugar de uno mejor). ¡Exploremos el porqué!

MAPE censura los eventos con recuento cero, con consecuencias catastróficas.

Al calcular el APE, nos encontramos con serios problemas cuando el valor real es cero, ya que necesitaríamos dividir por él. El APE queda entonces indefinido y no interviene en el cálculo del MAPE (recuerde, es la media de todos los APE). Es decir, los eventos de ventas cero simplemente se eliminan de los datos. Esta eliminación de datos es tan mala como parece: conduce a un sesgo de sobrepredicción flagrante en productos de muy baja rotación (que se venden una vez o menos por periodo de tiempo) en una predicción óptima de MAPE: dado que se ignoran los eventos 0, la predicción razonable más baja para cualquier producto, ubicación y día es 1, ¡incluso para un producto que se vende una vez al año! Dado que el pronóstico optimizado por MAPE puede ignorar con seguridad el resultado “0”, para ir a lo seguro se propone “1” como valor de pronóstico más bajo. Alternativas a la extracción (por ejemplo) Asignar siempre un error del 100% en lugar de eliminarlo no resuelve este problema: una predicción de 1,7 con un resultado de 0 es claramente menos problemática que una predicción de 17.000 con un resultado de 0; asignar a esos dos eventos el mismo APE artificial no tiene sentido. Es decir, siempre que sus datos puedan contener plausiblemente “0” como valor real para cualquier evento, el MAPE es extremadamente problemático. Su optimización dará lugar a predicciones excesivas en los elementos de movimiento muy lento, como podemos ver en las dos primeras filas de las tablas.

El MAPE penaliza de forma diferente las subestimaciones y las sobreestimaciones, lo que da lugar a estimaciones sesgadas.

Predicción 1, observación 7: El APE es 6/7, aprox. 86%. ¿Te parece mucho? Si es así, intercambie los números, prediga 7, observe 1: ¡Su APE se convierte en 6/1, 600%! El APE penaliza una sobreestimación por un factor determinado mucho más severamente que una subestimación por el mismo factor. Para las subestimaciones, el peor APE posible es del 100%; para las sobreestimaciones, no tiene límite. En consecuencia, cuando no se tiene certeza del resultado (nunca debería haberla, y todo buen modelo conoce su propia incertidumbre de alguna manera), jugar a lo seguro es jugar con cautela: evite sobreestimar el pronóstico a (casi) cualquier costo, mientras que una subestimación masiva no le costará caro. Por lo tanto, incluso bajo una incertidumbre de pronóstico mínima, que asumimos en la primera tabla, el pronóstico óptimo de MAPE es una subestimación para tasas de venta superiores a 1 (últimas dos filas). Además, cuanto mayor sea la variabilidad de los datos de entrenamiento, más incierto será el modelo y más subestimará el pronóstico óptimo de MAPE: Recuerde, jugar a lo seguro es jugar a lo bajo, y cuanto mayor sea la incertidumbre, más seguro querrá ser y menor será el pronóstico óptimo de MAPE. Esta protección contra las sobrepredicciones maneja al fuerte sesgo en las dos últimas filas de la segunda tabla. Esta asimetría se aborda mediante MAPE modificados: por ejemplo, el error porcentual se puede calcular con respecto a la media de la predicción y el valor real en lugar de solo con respecto al valor real; pero incluso estas modificaciones no resuelven completamente la asimetría e inducen otros problemas y paradojas.

El MAPE exhibe un comportamiento de escala particularmente complejo, lo que nos impide saber con certeza cuán buena es realmente una predicción.

Es cierto que la falta de interpretabilidad (¿un MAPE del 50% es bueno o malo?) no es una característica exclusiva del MAPE: cada métrica depende de la escala y asume valores diferentes para los elementos de movimiento lento y rápido. Sin embargo, el escalamiento de MAPE es especialmente intrincado y complejo, debido a la combinación de los dos efectos antes mencionados: por un lado, un pronóstico óptimo de MAPE nunca producirá un número menor que 1 y simplemente eliminamos los resultados de 0 ventas. Por otro lado, los errores relativos disminuyen para tasas de venta elevadas. En este gráfico, mostramos el “MAPE máximo”, el mejor MAPE posible alcanzable en función de la tasa de venta.

mean-absolute-percentage-error-body-01

Respira hondo y déjame explicarte lo que ves: La escala x es logarítmica, por lo que podemos observar bien las tasas de venta pequeñas; la escala va de 0,1 a 100, de súper lento a rápido. Para tasas de venta pequeñas inferiores a alrededor de 2, un pronóstico de 1 es el mejor posible, produce el valor MAPE dado por la línea naranja que va desde la parte inferior izquierda (donde está superpuesta por la línea discontinua negra) hasta la parte superior derecha. El pronóstico 2 daría lugar a un MAPE elevado en los movimientos lentos (línea verde), cercano al 95% para una tasa de venta de 0,1. El pronóstico 0 siempre conduce a un MAPE constante del 100% (línea azul): Para cualquier resultado que no sea 0 (y esos se eliminan de la evaluación), tenemos APE=|actual-0|/actual=100%. Con una tasa de venta de alrededor de 2,3, el pronóstico 2 se convierte en el óptimo, por lo que la línea discontinua negra, el mejor MAPE posible, salta de la línea naranja a la verde. Además, se alterna cada vez que el mejor pronóstico pasa de un valor al siguiente (se muestra para los pronósticos 3 y 4 en rojo y morado, respectivamente).

El mejor MAPE posible disminuye cuando pasamos a artículos de muy baja rotación (a la izquierda): Dado que los eventos de 0 ventas se eliminan de los datos, los eventos “sobrevivientes” son en su mayoría eventos de 1 venta, y aún más cuanto más lento se vende el artículo. Para una tasa de venta de 0,1, observar que se vendan 2 artículos en un solo día ya es muy improbable, y el pronóstico “1” es, por lo tanto, en la mayoría de los casos distintos de 0, perfecto, y el MAPE obtenido es bastante bajo. En otras palabras, cuando se sabe que se eliminará el “0” de los datos y el artículo es lento, entonces “1” es una apuesta bastante segura para la cantidad de ventas que se producirán. Para valores medianos alrededor de 1 a 5, vemos la “toma de turnos” del mejor MAPE posible. Para pronósticos grandes de 10 o más (hacia el lado derecho del gráfico), el MAPE alcanzable disminuye nuevamente: la distribución de Poisson se vuelve relativamente estrecha en el límite de tasas grandes (consulte nuestra publicación de blog anterior sobre Pronóstico Poco es diferente 1 y 2).

¡Hice todo lo posible por explicar la forma del “monte MAPE”! Me llevó más de 300 palabras en dos párrafos, pero me temo que no será del todo exitoso: ¿Lo entendiste de tal manera que podrás juzgar intuitivamente los MAPE en el futuro, en el contexto de las tasas de venta previstas? Si crees que no lo lograrás, no te preocupes: esta complejidad es otro argumento modesto de que, incluso entre profesionales, es improbable que un juicio intuitivo y correcto de los valores MAPE llegue a generalizar.

Las previsiones óptimas según el MAPE son irrelevantes para el negocio, poniendo en peligro el valor potencial de las previsiones.

La previsión que gana en MAPE no es la previsión imparcial que se desearía en muchas aplicaciones. Pero, ¿qué significa entonces “optimizar para MAPE”? Matemáticamente, el valor que minimiza el MAPE minimiza una expresión de aspecto engorroso que ni siquiera me atrevo a escribir en una entrada de blog que no esté dirigida a estadísticos. Lo que debes saber: Esa expresión no tiene ninguna interpretación comercial significativa. Independientemente de los objetivos que se busquen con la previsión (garantizar la disponibilidad, reducir el desperdicio, planear promociones y rebajas, reponer artículos, planear la plantilla, etc.), el costo empresarial de una previsión errónea en la aplicación no se refleja en el MAPE. Lo ideal es elegir una métrica de evaluación que refleje el costo financiero real de un error. No se trata de optimizar una función matemática abstracta, sino de maximizar el valor empresarial.

La alternativa: Que la métrica refleje directamente el negocio.

Aparte de situaciones como la predicción del PIB por países y bajo supuestos fuertes, el MAPE no es adecuado para indicar la calidad de un modelo de pronóstico (debido a la escala), ni un factor de decisión adecuado para elegir entre dos modelos que compiten (los pronósticos ganadores del MAPE están sesgados). ¿Cuál es la alternativa? Idealmente, la métrica empleada refleja directamente el valor empresarial. El Error Absoluto Medio (MAE) cuantifica las situaciones en las que el costo de un artículo en exceso es el mismo que el costo de un artículo faltante; una suposición fuerte, pero ciertamente más cercana a la realidad que el MAPE. El MAE tiene la misma dimensión que la predicción misma (“número de elementos”) y, por lo tanto, depende en gran medida de la escala. Al dividir el MAE por las ventas promedio, obtenemos el Error Absoluto Medio Relativo (RMAE), que, debido a la propiedad de escala de la distribución de Poisson, tampoco es independiente de la escala. Por lo tanto, la dependencia de la escala siempre debe abordar explícitamente.

Sin embargo, ignorar que las estimaciones MAPE óptimas están sesgadas no es una opción: ¡Las decisiones estratégicas importantes dependen de una evaluación de pronósticos confiable, significativa y relevante para el negocio! ¿Optamos por el proveedor de software A, por el proveedor de software B o por nuestra solución interna? ¿En qué surtidos deberíamos centrar nuestros esfuerzos de mejora del modelo? ¿La previsión en esa nueva categoría es lo suficientemente buena como para poner en marcha un sistema automatizado? La evaluación de las previsiones debe proporcionar evidencia clara, de alto nivel, interpretable y que refleje la situación del negocio para responder a estas y muchas otras preguntas. MAPE no puede ayudarnos con eso.

Descubre cómo corregir el error absoluto medio.

¿Te está proporcionando el error absoluto medio (MAE) métricas de rendimiento incompletas? Aprenda por qué es necesario corregir el MAE y los pasos fundamentales para una mejor evaluación de modelos.