El error porcentual absoluto medio (MAPE) cumplió su función y ahora debería retirar.

Blog

El error porcentual absoluto medio (MAPE) cumplió su función y ahora debería retirar.

Según Gartner (Encuesta de Gartner sobre el éxito en la planeación de ventas y operaciones de 2018), la métrica de evaluación más popular para las previsiones en la planeación de ventas y operaciones es el error porcentual absoluto medio (MAPE). Esto tiene que cambiar. Las previsiones modernas se refieren a pequeñas cantidades a un nivel desagregado, como por ejemplo producto-ubicación-día. Para pronósticos tan detallados, los valores MAPE son extremadamente difíciles de evaluar y, por lo tanto, no se consideran indicadores útiles de la calidad del pronóstico. El MAPE también induce profundamente a error a los usuarios al exagerar algunos problemas y disfrazar otros, incitándolos a elegir pronósticos con sesgo sistemático. Las situaciones en las que MAPE resulta adecuado son cada vez más raras. Esto no es teoría árida: simulamos un supermercado que se basa en un valor de pronóstico que optimiza el MAPE y que se introduce en el reabastecimiento. El exceso o la falta de existencias en los productos de alta y baja rotación provocan rápidamente el cierre de la tienda.

Cuando los errores absolutos y relativos se contradicen, ¿en quién debemos confiar?

Predijiste una demanda de 7,2 manzanas y finalmente se vendieron 9. Predijiste que se venderían 91,8 botellas de agua y se vendieron 108. Predijiste 1,9 latas de atún y solo se vendió una. ¿Cómo se evalúan estos errores de pronóstico? Un método sencillo consiste en calcular la desviación absoluta de la predicción con respecto al valor real y dividirla por dicho valor real, es decir, el error absoluto relativo, posiblemente como un valor porcentual (error porcentual absoluto, APE). Eso suena mucho más complicado de lo que realmente es: proponer el APE como primer intento para la “evaluación de la calidad del pronóstico” es bastante típico. Para los tres ejemplos, se obtienen APE aparentemente moderados del 20% (=|7,2-9|/7,2), modesto 15% (=|91,8-108|/108) y un alarmante 90% (=|1.9-1|/1), respectivamente. El MAPE, error porcentual absoluto medio, es la media aritmética de estos tres porcentajes y asciende al 41,67%. Estos porcentajes de error indican que el pronóstico sobre el atún es peor que el de las manzanas, y que el pronóstico sobre las botellas supera a los demás. Pero, ¿refleja esto realmente la calidad del pronóstico? Vuelva a mirar el principio de esta sección: la gran diferencia absoluta entre las botellas de agua pronosticadas y las reales es preocupante, y su pequeño error relativo no puede tranquilizarle realmente. Por otro lado, el error del 90% en el atún podría deber a la mala suerte (o a la suerte) aleatoria; se trata de un solo artículo. ¿Debes acallar tu intuición y confiar ciegamente en los simios avanzados? En consecuencia, ¿debería revisar la previsión de pesca de atún y dejar la previsión de pesca de agua tal como está? Si se emite otra previsión, con un MAPE global de solo el 30%, ¿es necesariamente mejor esa nueva previsión?

¡Por supuesto, bajo ninguna circunstancia te pediría seriamente que ignorases tu juicio humano! Esta desagradable paradoja se resuelve a continuación: el MAPE no es adecuado para pronósticos probabilísticos modernos a nivel granular (es decir, en producto-ubicación-día, en el que pueden ocurrir números “pequeños” o incluso “0”), debido a varios problemas intolerables e irresolubles. El MAPE de un pronóstico no nos dice qué tan bueno es ese pronóstico, sino cuán extraño es el comportamiento del APE.

Ignorar la escala deliberadamente: cuándo los errores porcentuales pueden tener sentido.

Antes de adentrarnos en la previsión detallada en el sector minorista (a nivel de producto, ubicación y día), supongamos que queremos predecir una cantidad mucho mayor: el producto interno bruto (PIB) anual de los países, medido en dólares estadounidenses. Dicha previsión podría emplear para definir políticas para países enteros, y estas políticas deberían ser igualmente aplicables a países de diferentes tamaños. Por lo tanto, es justo ponderar a cada país por igual en este caso práctico: un error del 5% en el PIB de EE. UU. (unos 25 billones de dólares) perjudica tanto como un error del 5% en el PIB de Tuvalu (unos 66 millones de dólares, 380.000 veces menor que el PIB de EE. UU.). Aquí, el error porcentual absoluto (EPA) tiene sentido: el PIB real nunca está cerca de 0 (lo que causaría un terrible dolor de cabeza al dividir por él, hablaré de eso más adelante), y el objetivo del pronóstico no es acertar con el PIB global del planeta, sino aproximar lo máximo posible para cada país individual, en escalas que van desde millones hasta billones. Minimizar el error absoluto total del modelo (es decir, El error (expresado en dólares estadounidenses, no en porcentajes) pone en primer plano a las economías más grandes y desestima a las pequeñas. No se pondera a cada país por igual, sino según su poder económico. Un modelo con un margen de error aceptable del 3% en el PIB de EE. UU. y un margen de error inaceptable del 200% en el PIB de Tuvalu parecería ser “mejor” que un modelo con un margen de error del 4% en el PIB de EE. UU. y un margen de error del 10% en el PIB de Tuvalu en términos absolutos de dólares estadounidenses. Por otro lado, el MAPE apunta a emplear el segundo pronóstico, que sacrifica una gran precisión absoluta del PIB de EE. UU. (1% de 25 billones de dólares estadounidenses) por una modesta mejora absoluta de la precisión en Tuvalu (190% de 66 millones de dólares estadounidenses). El PIB de Estados Unidos es mucho mayor que el de Tuvalu, pero uno, conscientemente y con razón, decidiría tratarlos por igual. Tanto Estados Unidos como Tuvalu pueden considerar “grandes” en el sentido de que no cabe esperar que las fluctuaciones estadísticas o la “mala suerte” sean responsables del error de pronóstico; es decir, las desviaciones normalmente serán estadísticamente significativas e indicarán un potencial de mejora del modelo.

En resumen, siempre que se deba tratar de igual manera a instancias individuales de un pronóstico de diferentes valores, es decir, siempre que no tengamos problema en comparar peras enormes con naranjas minúsculas, el MAPE puede tener sentido. Pero, ¿es siempre justo un trato igualitario?

Componente de carga...

Componente de carga...

Componente de carga...