Gütemaß
Wie ist eine ‚gute‘ Prognose? Die Antwort auf diese zentrale Frage hängt stark vom zugrunde liegenden Anwendungsfall ab. In der Statistik werden eine Vielzahl unterschiedlicher Gütemaße verwendet, um die Qualität einer Prognose zu evaluieren. Dies lässt bereits erahnen, dass das eine, für die Beurteilung von Prognosen optimale Gütemaß nicht existiert. Vielmehr müssen bei der Beurteilung von Gütemaßen das Wissen über die Datengrundlage und die Ansprüche an die Prognose mit abgewogen werden. Umso wichtiger ist es, die Prinzipien auf denen die Gütemaße aufbauen zu verstehen.
Im Folgenden schauen wir uns einige der am häufigsten vorkommenden Gütemaße an:
- Prognosefehler
- Absoluter Fehler (AE)
- Prozentualer Fehler (PE)
- Absoluter prozentualer Fehler (APE)
- Mittlerer Fehler (ME)
- Mittlerer absoluter Fehler (MAE)
- Mittlerer absoluter prozentualer Fehler (MAPE)
- Symmetrischer mittlerer absoluter prozentualer Fehler (sMAPE)
- Mittlerer absoluter skalierter Fehler (MASE)
- Mittlerer quadratischer Fehler (MSE)
- Periods in Stock (PIS).
Gemeinsam ist diesen Gütemaßen, dass ihre Auswertung auf dem sogenannten Prognosefehler basiert.
Prognosefehler
Der Prognosefehler (engl. forecast error) ist die Differenz von tatsächlich eingetretenem Wert und der Prognose.
Im Detail ist der Prognosefehler für eine Prognose, die i Zeiteinheiten in die Zukunft blickt, gegeben durch:
Hierbei ist
der Vorhersagewert der Prognose nach i Zeiteinheiten und
der tatsächlich eingetretene Wert zum entsprechenden Zeitpunkt.
Eigenschaften
- Sensitivität bzgl. Über- und Unterschätzung: Das Vorzeichen des Prognosefehlers gibt Auskunft, ob der tatsächliche Wert überschätzt (ei mit negativem Vorzeichen) oder unterschätzt (ei mit positivem Vorzeichen) wurde.
- Nicht-skaliertes Maß: Der Prognosefehler ist stets in Relation zur Größenordnung der Daten zu interpretieren. Ein Prognosefehler von 10 bei Daten im Bereich von 10 000 lässt auf eine größere Genauigkeit der Prognose schließen, als wenn die Daten im Bereich von 100 liegen.
- Unbeschränkter Wertebereich: Der Prognosefehler ist in den Werten, die er annehmen kann weder nach unten, noch nach oben beschränkt.
- Maß auf Einzelbeobachtungsebene: Der Prognosefehler bemisst die Prognosegüte für eine einzelne zeitliche Beobachtung. Er unterscheidet sich hierbei von den aggregierten Gütemaßen, die mehrere Beobachtungen zusammenfassen.
- Optimalitätskriterium: Je näher der Prognosefehler bei 0 liegt, desto besser die Prognose.
Absoluter Fehler (AE)
Der Betrag der Abweichung von tatsächlichem zu vorhergesagtem Wert wird als absoluter Prognosefehler (engl. absolute forecast error, AE) bezeichnet. Er ermittelt sich via:
Eigenschaften
- Insensitiv bzgl. Über- und Unterschätzung: Der AE unterscheidet nicht, ob die Prognose den tatsächlichen Wert über- oder unterschätzt.
- Nicht-skaliertes Maß: Analog zum Prognosefehler handelt es sich hier um ein nicht-skaliertes Gütemaß.
- Nicht-negativ: Durch den Betrag ist das Vorzeichen stets positiv. Nach oben ist der AE unbeschränkt.
- Maß auf Einzelbeobachtungsebene: Wie bei dem Prognosefehler haben wir es mit einem nicht-aggregierten Gütemaß zu tun.
- Optimalitätskriterium: Je näher der AE bei 0 liegt, desto besser die Prognose.
Prozentualer Fehler (PE)
Der prozentuale Prognosefehler (engl. percentage error, PE) misst den Prognosefehler relativ zum tatsächlich eingetretenen Wert. Es gilt:
Eigenschaften
- Asymmetrie bzgl. Über- und Unterschätzung: Ein Prognosefehler mit gleichem Betrag, kann bei einer Änderung des tatsächlichen Wertes zu verzerrten prozentualen Prognosefehlern führen. Nehmen wir anhand eines Beispiels an, die Prognose liegt bei fci = 100 und der tatsächlich eingetretene Wert bei acti = 160. Der Prognosefehler beträgt ei = 60. Dies führt zu einem PE von +37.5%. Liegt der tatsächliche Wert nun allerdings bei acti = 40, so hat die Prognose den tatsächlichen Wert nun nicht um 60 Einheiten unter-, sondern um 60 Einheiten überschätzt. Im PE führt dies jedoch nun zu einem Wert von -150% und nicht - wie aus Symmetriegründen vielleicht zunächst spontan vermutet - von -37.5%. Dieser verzerrende Effekt tritt umso stärker zu Tage, je größer der absolute Fehler |+/-ei| im Verhältnis zu acti ist.
- Skaliertes Maß: Im Gegensatz zum Prognosefehler berücksichtigt der PE die Größenordnug der Datenwerte. Er kann daher genutzt werden, die Qualität von Prognosen zu Daten unterschiedlicher Größenordnung miteinander zu vergleichen.
- Unbeschränkter Wertebereich: Der PE kann jeden beliebigen Wert annehmen.
- Maß auf Einzelbeobachtungsebene: Es handelt sich um ein nicht-aggregiertes Gütemaß.
- Nicht geeignet für Zeitreihen mit 0er Werten: Der PE ist nicht geeignet für Zeitreihen, die den Wert 0 annehmen können, da diese Einträge zu einem Divisionsfehler führen würden.
Absoluter prozentualer Fehler (APE)
Der absolute prozentuale Prognosefehler (engl. absolute percentage error, APE) misst den Betrag der Prognosefehler relativ zum tatsächlich eingetretenen Wert. Es gilt:
Abgesehen von der Beschänkung auf nicht-negative Werte, teilt der APE die Eigenschaften des prozentualen Prognosefehlers.
Eigenschaften
- Asymmetrie bzgl. Über- und Unterschätzung
- Skaliertes Maß
- Nicht-negativer Wertebereich
- Maß auf Einzelbeobachtungsebene
- Nicht geeignet für Zeitreihen mit 0er Werten
Mittlerer Fehler (ME)
Der mittlere Fehler (engl. mean error, ME) gibt den durchschnittlichen Fehler an. Das Mittel wird hier für gewöhnlich über alle betrachteten Prognoseschritte von 1 bis h gebildet.
Mit dem ME sind wir bei den aggregierten Gütemaßen angelangt.
Eigenschaften
- Prognosefehler in einzelnen Prognoseschritte können sich aufheben: Überschätzt und unterschätzt man sich bei einer Prognose in gleicher Weise, so heben sich die einzelnen Fehler im Mittel auf. Ein ME der stark von 0 abweicht deutet hingegen an, dass die Prognose die tatsächlichen Werte systematisch überschätzt hat und womöglich ein strukturelles Problem im Prognosemodell vorliegt.
- Alle Prognoseschritte gleichgewichtet: Im Normalfall gehen in den ME Prognosefehler gleichgewichtet ein, unabhängig davon, ob die dazugehörigen Vorhersagewerte in der nahen oder fernen Zukunft liegen.
- Nicht-skaliertes Maß
- Unbeschränkter Wertebereich
- Aggregiertes Gütemaß
Mittlerer absoluter Fehler (MAE)
Der mittlere absolute Fehler (engl. mean absolute error) gibt den Durchschnitt aller absoluten Prognosefehler an. Das Mittel wird hier für gewöhnlich über alle betrachteten Prognoseschritte von 1 bis n gebildet.
Abgesehen von der Tatsache, dass sich Prognosefehler aufgrund der Beschänkung auf nicht-negative Werte nicht mehr aufheben können, teilt der MAE die Eigenschaften des mittleren Fehlers.
Eigenschaften
- Prognosefehler in einzelnen Prognoseschritte können sich nicht aufheben
- Alle Prognoseschritte gleichgewichtet
- Nicht-skaliertes Maß
- Nicht-negativer Wertebereich
- Aggregiertes Gütemaß
Mittlerer absoluter prozentualer Fehler (MAPE)
Der mittlere absolute prozentuale Fehler (engl. mean absolute percentage error) beschreibt den Durchschnitt der absoluten prozentualen Prognosefehler relativ zu der Größenordnung der tatsächlichen Werte.
Da ansonsten durch Null geteilt werden würde, kann der MAPE nicht für Zeitreihen verwendet werden, in denen viele Werte Null entsprechen. Er liefert auch keine guten Ergebnisse für Zeitreihen mit vielen Werten nahe Null. Jedoch ist der MAPE, anders als der MAE oder MSE, einheitenlos und kann daher besser für Vergleiche der Güte von Prognosen unterschiedlicher Größen genutzt werden.
Eigenschaften
- Richtung der einzelnen Prognoseschritte wird bei der Mittelung nicht berücksichtigt
- Alle Prognoseschritte gleichgewichtet
- Skaliertes Maß
- Nicht-negativer Wertebereich
- Nicht geeignet für Zeitreihen mit 0er Werten
- Aggregiertes Gütemaß
Mittlerer quadratischer Fehler (MSE)
Der mittlere quadratische Fehler (engl. mean squared error) entspricht dem Durchschnitt der quadrierten Prognosefehler.
Wie der MAE und MAPE berücksichtigt er nur die absolute Abweichung der Prognose vom tatsächlichen Wert und nicht deren Richtung. Im Vergleich zum MAE fallen durch die Quadrierung große Fehler stärker ins Gewicht. Dies hat u. a. zur Folge, dass der MSE anfälliger gegenüber Ausreißern ist. Der mittlere quadratische Fehler wird oft als Optimierungskriterium in der Modellbildung verwendet, etwa bei der klassischen linearen Regression.
Eigenschaften
- Richtung der einzelnen Prognoseschritte wird nicht berücksichtigt
- Alle Prognoseschritte gleichgewichtet
- Nicht-skaliertes Maß
- Nicht-negativer Wertebereich
- Aggregiertes Gütemaß
Mittlerer absoluter skalierter Fehler (MASE)
Der mittlere absolute skalierte Fehler (engl. mean absolute scaled error) entspricht dem MAE der betrachteten Prognose geteilt durch den MAE einer einstufigen naiven Prognose (in-sample) der tatsächlichen Werte 1 bis n.
Demnach impliziert ein MASE größer als 1, dass die betrachtete Prognose schlechter ist als eine einstufige naive Prognose; ein MASE kleiner als 1, dass sie besser ist. Während eine gute einstufige Prognose einen MASE von 1 demnach klar unterschreiten sollte, bedeutet bei einer mehrstufigen Prognose ein MASE größer als 1 nicht notwendigerweise, dass diese nicht gut ist.
Wie der MAPE hat auch der MASE keine Einheit und eignet sich daher für Vergleiche. Verglichen mit dem MAPE kann der MASE besser mit (einzelnen) Nullwerten in Zeitreihen umgehen. Im Gegenzug ist der MASE nicht gut für annähernd konstante Zeitreihen geeignet, da in diesem Fall die Prognosefehler einer naiven Prognose häufig Null entsprechen und deren MAE somit sehr klein ist.
Eigenschaften
- Richtung der einzelnen Prognoseschritte wird bei der Mittelung nicht berücksichtigt
- Alle Prognoseschritte gleichgewichtet
- Skaliertes Maß
- Nicht-negativer Wertebereich
- Vergleich zwischen Modellen
- Aggregiertes Gütemaß
Symmetrischer MAPE (sMAPE)
Der symmetrische mittlere absolute prozentuale Fehler (engl. scaled mean absolute percentage error, sMAPE) mittelt über die absoluten Fehler geteilt durch den Mittelwert der Beträge von tatsächlichem und prognostiziertem Wert.
Im Vergleich zum MAPE, bei dem die Gewichtung der Prognosefehler nur auf dem tatsächlichen Wert basiert, wird beim sMAPE also auch die Höhe des prognostizierten Wertes berücksichtigt. Wie der MAPE liefert auch der sMAPE keine guten Ergebnisse, wenn viele der tatsächlichen bzw. prognostizierten Werte nahe bei oder gleich Null sind.
Der sMAPE nimmt Werte zwischen 0% und 200% an.
Eigenschaften
- Richtung der einzelnen Prognoseschritte wird bei der Mittelung nicht berücksichtigt
- Alle Prognoseschritte gleichgewichtet
- Skaliertes Maß
- Wertebereich zwischen 0 und 200%
- Aggregiertes Gütemaß
MAPE vs. sMAPE
Die transformierten Fehler, die gemittelt den MAPE bzw. sMAPE ergeben, wirken ziemlich ähnlich; am besten wird der Unterschied zwischen beiden Gütemaßen in folgendem Beispiel deutlich. Der Einfachheit halber wird nur ein prognostizierter Zeitpunkt betrachtet.
Fall 1: Die Vorhersage liegt fixiert bei fc = 100. Die tatsächlichen Werte varieren um 100 +/- 10. Dies führt jeweils zu einem absoluten Prognosefehler von 10.
act = 90, fc = 100 | act = 110, fc = 100 | |
---|---|---|
MAPE | 10/90 | 10/110 |
sMAPE | 10/95 | 10/105 |
Fall 2: Nun lassen wir die tatsächlichen Werte fixiert bei act = 100 und variieren die Vorhersage um 100 +/- 10. Wie im Fall 1, ergibt sich auch hier jeweils ein Prognosefehler von 10.
act = 100, fc = 90 | act = 100, fc = 110 | |
---|---|---|
MAPE | 10/100 | 10/100 |
sMAPE | 10/95 | 10/105 |
Man erkennt:
- Der sMAPE ist symmetrisch bzgl. fc <-> act. Er bleibt gleich, wenn der tatsächliche und der prognostizierte Wert vertauscht werden.
- Der MAPE ist symmetrisch bzgl. fc = act + e <-> fc = act - e. Für einen festen tatsächlichen Wert act, bleibt der MAPE gleich egal ob er durch die Prognose fc um einen Fehler e über- oder unterschätzt wird.
Periods in Stock (PIS)
Periods in Stock ist ein Gütemaß, das aufsummiert, wie lange Prognosefehler als Bestand in einem fiktiven Lager bleiben bis sie durch entsprechende Prognosefehler in die andere Richtung ausgeglichen werden.
Die Richtung der Prognosefehler ist bei diesem Gütemaß somit von Bedeutung. PIS bezieht des Weiteren anders als beispielsweise der MAE die Dauer des Mismatches zwischen Prognose und tatsächlichem Wert mit ein und kann daher gut zur Bewertung von Prognosen von sporadischen Zeitreihen, also Zeitreihen mit vielen Nullwerten, verwendet werden.
Zum Beispiel führt eine Prognose mehrere Tage zu früh (Prognose 1) zu einem höhen PIS, also einer schlechteren Prognosegüte, als eine nur um einen Tag verschobene Prognose (Prognose 2), während andere Gütemaße wie der MAE beide Fälle gleich bewerten.
Zeitpunkt | tatsächlicher Wert | Prognose 1 | "Bestand" 1 | Prognose 2 | "Bestand" 2 |
---|---|---|---|---|---|
1 | 0 | 1 | 1 | 0 | 0 |
2 | 0 | 0 | 1 | 0 | 0 |
3 | 0 | 0 | 1 | 1 | 1 |
4 | 1 | 0 | 0 | 0 | 0 |
PIS1 = 3, PIS2 = 1, MAE1 = MAE2 = 0.5
Eigenschaften
- Richtung der einzelnen Prognoseschritte wird berücksichtigt
- Dauer des Mismatches zwischen Prognose und tatsächlichem Wert relevant
- Nicht-skaliertes Maß
- Unbeschränkter Wertebereich
- Geeignet für Zeitreihen mit 0er Werten
- Aggregiertes Gütemaß