Zeitreihenvorhersage

Zeitreihe

Monatliche Zeitreihe mit einer stabilen Saisonfigur
Beispiel für eine Zeitreihe auf Monatsbasis mit einer stabilen Saisonfigur.

Eine Zeitreihe beschreibt die zeitliche Entwicklung einer veränderlichen Größe wie zum Beispiel eines Umsatzes, eines Aktienkurses, eines Lagerbestands oder auch einer Temperatur. Die Beobachtungszeiträume einer Zeitreihe sind regelmäßig: Die Werte werden jährlich, monatlich, täglich, etc. erfasst. Zeitreihen dienen als Grundlage zur Analyse der Vergangenheitswerte aber auch für die Prognose der künftigen Entwicklung. Mehr erfahren über verschiedene Zeitreihen-Typen

Granularität

Die Granularität einer Zeitreihe bestimmt die zeitliche Frequenz, in der Beobachtungen über die Zeit hinweg gemessen werden. Monatliche Granularität liegt vor, wenn pro Monat eine Beobachtung erfasst wird. Von täglicher Granularität spricht man, wenn Beobachtungen pro Tag gemessen werden.

Saisonalität

Saisonale Zeitreihe auf Monatsbasis mit einer Saisonlänge von 12 Monaten
Saisonale Zeitreihe auf Monatsbasis mit einer Saisonlänge von 12 Monaten. Es lässt sich erkennen: das erste Halbjahr (Jan-Jun) ist in der Regel stärker als das zweite Halbjahr (Jul-Dez) mit einem ausgeprägten Dip im Dezember.

Mit Saisonalität bezeichnet man eine für Zeitreihen typische Strukturkomponente: Saisonalität liegt vor, wenn sich in der Zeitreihe zyklische, wiederholende Figuren finden. Die Länge des Zeitraums, nachdem diese saisonalen Figuren wiederkehren, bezeichnet man als Saisonlänge. Monatsdaten weisen zum Beispiel oft eine Saisonalität mit einer Saisonlänge von 12 Monaten auf.

Trend

Zeitreihe auf Monatsbasis mit einem Trend nach oben ab Juli 1990
Zeitreihe auf Monatsbasis mit einem Aufwärtstrend ab Juli 1990.

Neben der Saisonalität ist der Trend einer Zeitreihe eine weitere wichtige Struktureigenschaft: Ein Trend liegt vor, wenn in der Zeitreihe lokal eine eindeutige Entwicklungsrichtung erkennbar ist; entweder eine Entwicklung nach oben (positives Wachstum) oder eine Entwicklung nach unten (negatives Wachstum). Generell lassen sich unterschiedliche Trendtypen modellieren: linearer Trend, parabolischer Trend, exponentieller Trend, etc. In der Praxis beschränkt man sich häufig auf den linearen Trend und den linear gedämpften Trend. Während ein linearer Trend einen erkannten Trend linear in die Zukunft fortschreibt, kann mittels gedämpftem Trend eine Trendsättigung modelliert werden. Hier schwächt der Trend im Laufe der Zeit ab.

Indikator

Um eine Zeitreihe zu modellieren, sind neben intrinsischen Strukturkomponenten wie Trend und Saisonalität oft auch externe Kontextinformation und Einflussgrößen relevant. Enthält eine externe Einflussgröße relevante Information mit zeitlichem Vorlauf, so spricht man von einem Indikator. Ein Indikator antizipiert also künftige Entwicklungen in der zu prognostizierenden Zeitreihe. Den zugehörigen zeitlichen Versatz zwischen Indikator und der zu prognostizierenden Zeitreihe bezeichnet man als den Lag des Indikators. Der Prognosehorizont eines Prognosemodells mit vorlaufendem Indikator entspricht i. d. R. dem Lag des Indikators.

Zeitreihe mit Einflussgröße sowie gelaggter Einflussgröße
Verschiebt man die externe Einflussgröße um drei Monate in die Zukunft, so lässt sich erkennen, dass Auf- und Abwärtsbewegungen in der (gelaggten Einflussgröße) gut mit denen in der zu prognostizierenden Zeitreihe (schwarz) zusammenpassen. Mit einem Vorlauf von drei Monaten nimmt die Einflussgröße frühzeitig zu erwartende Entwicklungen in der Zeitreihe vorweg und bietet so Mehrwert für eine Prognose. In einem Prognoseverfahren lässt sich die Einflussgröße somit gut als Indikator mit Lag 3 nutzen.

Ausreißer

Monatliche Zeitreihe mit einem Ausreißer in der Saisonfigur
Der gewohnt schwache Dezemberwert der Zeitreihe ist im Jahr 2008 deutlich stärker ausgeprägt als in den anderen Jahren - ein Ausreißer in der Saisonfigur.

Als Ausreißer werden außergewöhnliche Werte in der Zeitreihenhistorie bezeichnet, die die übliche Struktur der Zeitreihe durchbrechen. Ausreißer können z.B. eine Sondersituation aber auch durch einen Datenfehler zustande kommen. Solche Ausnahmewerte können die Modellschätzung und damit die Forecasts verfälschen. Ausreißer gilt es datenbasiert zu identifizieren und ggf. durch einen passenden Ersatzwert zu ersetzen.

Klassifikation von Zeitreihen

Zeitreihen können sich qualitativ stark voneinander unterscheiden. Unterschiedliche Zeitreihentypen verlangen unterschiedliche Prognosemethoden, um vorhandene Muster in den historischen Daten zu erkennen und diese adäquat in der Prognose zu berücksichtigen. Daher ist es sinnvoll zunächst den vorliegenden Zeitreihentyp zu analysieren und eine Vorauswahl an geeigneten Methoden zu treffen, die im Anschluss genauer untersucht und ggf. gerankt werden. Eine einfache Klassifikation ergibt sich nach Syntetos, Boylan & Croston (2005) z. B. durch:

Darüber hinaus gibt es auch weitere Typen, z.B. diese "trivialen", bei denen i.d.R. keine Muster erkannt werden können:

Autokorrelation

Autokorrelation bedeutet, dass eine zeitlich veränderliche Größe mit sich selbst, verschoben um eine feste Zeiteinheit, korreliert. So sind z. B. die Höchsttemperaturen eines Tages mit den Höchsttemperaturen des vorherigen Tages positiv autokorreliert. Auf einen sehr heißen Tag folgt nämlich häufig ein Tag, der ebenfalls eine hohe Tagestemperatur aufweist.

Zeitreihe mit Autokorrelation
Die Zeitreihe wird sukzessive um ein Monat in die Zukunft verschoben und dabei stets ihre Korrelation mit ihrer originalen, nicht verschobenen Version bestimmt.
Autokorrelationsplot einer Zeitreihe
Die ermittelten Korrelationswerte werden in Abhängigkeit zum jeweiligen Zeitversatz (Lag) in einem Diagramm aufgetragen. Der relativ hohe Korrelationswert bei Lag 1, lässt erkennen: die einzelnen Zeitreihenwerte sind nicht unabhängig voneinander. Ein einzeler Wert reagiert stets auf den ihm vorausgegangen Wert.

Kreuzkorrelation

Die Kreuzkorrelation misst, wie stark zwei Zeitreihen bei unterschiedlicher Zeitverschiebung miteinander korrelieren. Sie untersucht sozusagen, bei welchem zeitlichen Versatz die beiden Zeitreihen am besten zueinander passen. Hierbei ist zu beachten, dass Trends und Saisonalität in den Zeitreihen das Ergebnis verfälschen können und ggf. vorab herauszurechnen sind.

Zeitreihe mit gelaggter Einflussgröße als Basis für die Berechnung der Kreuzkorrelation
Die Einflussgröße (gelb) wird sukzessive um ein Monat in die Zukunft (bzw. in die Vergangenheit) verschoben und dabei stets ihre Korrelation zur Referenzzeitreihe (schwarz) bestimmt.
Kreuzkorrelationsplot einer Zeitreihe mit einer Einflussgröße
Die ermittelten Korrelationswerte werden in Abhängigkeit zum zugehörigen Zeitversatz (Lag) in einem Diagramm aufgetragen. Daraus lässt sich erkennen, dass die höchste Korrelation zwischen den beiden Größen bei einer Verschiebung von drei Monaten in die Zukunft vorliegt.

Prognose

(Punkt-)Prognosen sind Schätzungen für die Werte einer Zeitreihe für einen zukünftigen Zeitraum. Um statistische Prognosen zu erstellen, bedient man sich sogenannter Prognosemodelle.

Plot einer Zeitreihe mit Prognose für die nächsten 12 Monate

Prognosezeitraum / Prognosehorizont

Als Prognosezeitraum (auch Prognosehorizont) wird der Zeitraum bezeichnet, für den die Vorhersagen erstellt werden sollen, zum Beispiel 5 Tage, 6 Monate, 7 Jahre.

Plot einer Zeitreihe mit Prognose in einem Prognosezeitraum von 12 Monaten

Prognoseschritt

Der Prognosezeitraum beschreibt die Länge der zukünftigen Zeit, für welche Prognosen bereitgestellt werden. Je nach Granularität der Zeitreihe sind dafür unterschiedlich viele Prognoseschritte nötig. Liegt zum Beispiel eine Zeitreihe auf Monatsbasis vor, so umfasst ein Prognosezeitraum von zwölf Monaten auch zwölf Prognoseschritte. Derselbe Zeitraum von zwölf Monaten beinhaltet bei einer Zeitreihe auf Tagesbasis bereits etwa 12 x 30 = 360 Prognoseschritte. Mit zunehmender Anzahl an Prognoseschritten nimmt üblicherweise die Unsicherheit zu und somit die Prognosequalität ab.

Prognoseintervall

Eine (Punkt-)Prognose wird den künftigen, tatsächlich eintreffenden Wert selten ganz exakt treffen: Die Prognose ist stets mit einer gewissen Unsicherheit behaftet. Diese Unschärfe lässt sich mittels eines Prognoseintervalls quantifizieren. Das Prognoseintervall beschreibt einen Wertebereich um die statistische Punktprognose, der den tatsächlich eintreffenden Wert mit einer vorgegebenen Wahrscheinlichkeit, dem Prognosekonfidenzniveau, überdecken wird.

Prognosekonfidenzniveau

Um die Unsicherheit, mit der eine statistische Prognose behaftet ist, zu quantifizieren, stattet man den Prognosewert mit einem Prognoseintervall und einem dazugehörigen Prognosekonfidenzniveau aus. Das zum Intervall gehörige Prognosekonfidenzniveau misst die Treffsicherheit des Prognoseintervalls, mit der das Intervall den künftigen Wert überdeckt. Je größer das Prognosekonfidenzniveau, desto wahrscheinlicher, dass der künftige Wert vom Intervall überdeckt wird. Ein Prognosekonfidenzniveau von 95 Prozent bedeutet beispielsweise, dass von 100 auf eine bestimmte Weise berechneten Prognoseintervallen im Mittel 95 die wahren (zukünftigen) Zeitreihenwerte enthalten. In etwa 5 Prozent der Fälle dagegen liegen die wahren Zeitreihenwerte außerhalb.

Plot von Prognosen mit Prognoseintervall zum Konfidenzniveau 95%

Prognosemethode

Unter einer Prognosemethode versteht man ein datenbasiertes Verfahren, um gewisse Strukturen in einer Zeitreihe zu identifizieren und diese für eine Prognose nutzbar zu machen. Es legt sozusagen die Regeln zur Erstellung der Prognose fest und schätzt ein für die vorliegende Zeitreihe passendes Prognosemodell. Es gibt eine Vielzahl von klassischen statistischen Prognosemethoden. Ebenso können Regressions- oder Machine-Learning-Verfahren als Prognosemethode genutzt werden. Unterschiedliche Verfahren stellen unterschiedliche Strukturkomponenten der Zeitreihe (Trend, Saisonalität, Einfluss von externen Informationen, Adaptivität, ...) unterschiedlich stark in den Fokus. Wichtige Beispiele für statistische Prognosemethoden sind der gleitende Mittelwert sowie die exponentielle Glättung. Das für eine gegebene Zeitreihe im Einzelfall geeignetste Verfahren mit passenden Einstellungen zu finden ist Gegenstand der Modellauswahl.

Naive Prognose

Die naive Prognose ist ein einfaches, intuitives Prognoseverfahren. Für die Prognose wird der aktuellste Wert der vorliegenden Zeitreihe konstant in die Zukunft fortgeschrieben.

Gleitender Mittelwert (Moving Average)

Der gleitende Mittelwert ist ein einfaches, intuitives Prognoseverfahren. Um eine Prognose zu erstellen, wird aus aktuellen Datenpunkten der gegebenen Zeitreihe (z. B. den aus allen Datenpunkten des letzten Quartals) das arithmetische Mittel errechnet und konstant in die Zukunft fortgeschrieben. Die Anzahl der aktuellen Datenpunkte, die bei der Mittelung berücksichtigt werden soll, wird als Ordnung des gleitenden Mittelwerts bezeichnet und ist à priori zu definieren. Ein Spezialfall des gleitenden Mittelwerts ist die naive Prognose (Gleitender Mittelwert der Ordnung 1).

Autoregressive Integrated Moving Average (ARIMA)

Ein ARIMA-Modell (ARIMA = Autoregressive Integrated Moving Average) ist ein Modell zur Analyse und Prognose von Zeitreihen, in das vergangene Werte der Zeitreihe selbst sowie vergangene Fehlerterme eingehen. Die Analyse kann hierbei statt auf den Rohdaten auch auf (mehrfach) differenzierten Daten stattfinden. Saisonalitäten sowie exogene Einflussgrößen können in ARIMA-Modellen ebenfalls mitmodelliert werden.

Exponentielle Glättung mit Kovariaten (ESCov)

Das Verfahren der exponentiellen Glättung ist ein bewährtes Verfahren zur Analyse und Prognose von Zeitreihen, welches Niveau-, Trend - und multiple Saisonkomponenten in Betracht ziehen kann. Hierbei werden weiter zurückliegende Zeitreihenwerte üblicherweise weniger stark gewichtet als die jüngere Historie. Die Erweiterung „Exponentielle Glättung mit Kovariaten“ (Exponential Smoothing with Covariates) kann zusätzlich mit exogenen Einflussgrößen umgehen.

TBATS

TBATS ist ein von De Livera, Hyndman & Snyder (2011) entwickelte Erweiterung der exponentiellen Glättung, die insbesondere bei komplexen Saisonalitätsmustern ihre Vorteile ausspielt. Die Saisonmodellierung erfolgt hierbei über Fourieranalyse und trigonometrische Funktionen. Der Name TBATS ist ein Akronym, das die Fähigkeiten des Verfahrens gut zusammenfasst: trigonometrische Funktionen zur Modellierung multipler Saisonalität (T), Box-Cox Transformation (B), ARMA-Fehlermodellierung (A), Trend (T), Saisonalität (S).

Croston-Methode (Croston)

Croston ist eine Prognosemethode für sporadische Zeitreihen. Das Verfahren wurde 1972 von Croston zur Vorhersage von sporadischen Artikelbedarfen vorgeschlagen. Hierbei werden die Höhe von Bedarfsereignissen (= Nicht-Nullwerte der Zeitreihe) sowie die Dauer zwischen zwei aufeinanderfolgenden Ereignissen (= Nullerintervalle) getrennt voneinander modelliert, in der Regel mittels exponentieller Glättung, und daraus anschließend eine Prognose abgeleitet.

Neben der klassischen Version von Croston gibt es mittlerweile mehrere Erweiterungen und Varianten des Verfahrens, wie z. B. die Teunter-Syntetos-Babai-Methode (TSB).

Teunter-Syntetos-Babai-Methode (TSB)

TSB ist eine von Teunter, Syntetos and Babai (2011) entwickelte Erweiterung von Croston, die zwei nachteilige Aspekte der Originalvariante adressiert und überwindet:

  1. Positiver Bias in den Vorhersagen
  2. Trägheit bei auslaufenden Bedarfsereignissen (Obsoleszenz)

Im Wesentlichen geschieht dies dadurch, dass TSB von der Modellierung der Dauer zwischen zwei Ereignissen (Nullerintervalle) zu Eintrittswahrscheinlichkeiten übergeht.

Modellauswahl und Validierung

Kovariate / Einflussgröße

Unter einer Kovariaten versteht man in einem (statistischen) Vorhersagemodell eine Einflussgröße, die als Prädiktor fungiert, also potenziell Einfluss auf die vorherzusagende, abhängige Variable hat und daher in einem Vorhersagemodell berücksichtigt wird. So kann beispielsweise die Tageshöchsttemperatur eine Kovariate für die Modellierung und Vorhersage des täglichen Stromverbrauchs einer Stadt sein.

Prognosefehler

Als Prognosefehler bezeichnet man die Differenz zwischen prognostiziertem und eingetretenem Wert.

Vergleich von Prognosen und eingetretenem Wert in der Zeitreihenprognose

Gütemaß

Um die Güte eines Modells zu beurteilen, können unterschiedliche Gütemaße konstruiert oder herangezogen werden. Die meisten dieser Gütemaße basieren auf einer Auswertung der Prognosefehler. Beispiele für solche Gütekriterien sind z. B. MAE (Mittlerer Absoluter Fehler), MAPE (Mittlerer Absoluter Prozentualer Fehler), MSE (Mittlerer Quadratischer Fehler) und PIS (Periods in Stock). Mehr erfahren zu Prognosefehler und Gütemaßen

Backtesting

Das Backtesting bezeichnet eine Strategie, um die Güte eines Prognosemodells zu evaluieren. Hierbei wird simuliert, welche Prognosen das Modell für einen vergangenen Zeitraum (z. B. für das letzte Jahr) geliefert hätte. Diese werden mit den bereits bekannten, tatsächlich eingetretenen Werten für diesen Zeitraum verglichen. Mehr lernen über Backtesting

Modellauswahl

In der Modellauswahl wird für eine gegebene Zeitreihe das am besten passende Prognosemodell automatisiert identifiziert und die zugehörigen Modellparameter optimal eingestellt. Mehr lernen über Modellauswahl

Ensemble Methoden

Ensemble Methoden kombinieren die einzelnen Prognosen verschiedener Basismodelle (Beispielsweise ARIMA, exponentielle Glättung, ...) zu einer Gesamtprognose. Der Kerngedanke eines Ensembles ist, dass sich durch die Kombination der verschiedenen Modelle individuelle Tendenzen ausgleichen, und sich somit eine Prognose höherer Güte ergibt. Die Auswahl und Gewichtung der Basismodelle für das Ensemble kann aufgrund der Ergebnisse der einzelnen Modelle aus dem Backtesting erfolgen.

Aggregation

Hierarchische Aggregation

In vielen Anwendungsfällen sind Zeitreihen hierarchisch organisiert oder können mittels Kontextattributeten gruppiert und auf unterschiedliche Ebenen aggregiert werden. Beispielsweise kann bei den monatlichen Umsatzzahlen von Artikeln der Gesamtumsatz aller Artikel, der Gesamtumsatz aller Artikel pro Region, der Umsatz eines jeden einzelnen Artikels oder sogar der Umsatz eines jeden einzelnen Artikels pro Kunde betrachtet werden.

Bei der Identifikation einer optimalen Aggregationsebene für die Modellierung und Forecast-Erstellung spielt zum Einen das spezifische Anwendungsziel eine zentrale Rolle, aber auch die Frage, auf welcher Ebene sich Muster, Strukturen und Zusammenhänge in den Daten bestmöglich erkennen und erlernen lassen.

Mit hierarchischen Prognosen lassen sich multiple, hierarchische Ebenen verknüpfen und konsistente Prognosen über die Ebenen hinweg erzeugen. Mehr lernen über hierarchische Aggregation

Zeitliche Aggregation

Durch zeitliche Aggregation wird eine Zeitreihe in eine neue Zeitreihe mit gröberer Granularität umgewandelt. So wird aus einer monatlichen Zeitreihe von Monatsumsätzen durch Summierung der jeweils zwölf Monatsumsätze eines Jahres eine jährlichen Zeitreihe von Jahresumsätzen. Im Beispiel dient die Summe als Aggregationsfunktion; je nach Fragestellung sind andere Funktionen denkbar, etwa der Mittelwert, der Median oder das Maximum.

Zur Prognose ist es zumeist zweckmäßig, die zum Prognoseziel passende Granularität zu wählen. Soll jeweils der Umsatz der nächsten Monate prognostiziert werden, so wird die monatliche Zeitreihe der Monatsumsätze als Datenbasis genutzt. Der alternative Ansatz die Tagesumsätze auf Basis von Tagesdaten zu prognostizieren und anschließend die Prognosen zeitlich zu aggregieren, um Vorhersagen der Monatsumsätze zu erhalten, führt im Regelfall zu weniger genauen Vorhersagen. Gleiches gilt für die Berechnung einer Vorhersage des Monatsumsatzes aus einem prognostizierten Jahresumsatz (durch Division mit der Anzahl der Monate). Allerdings kann für lange Prognosehorizonte die übliche Vorhersage auf Monatsbasis häufig durch Kombination mit letzterem Ansatz verbessert werden. Mehr lernen über zeitliche Aggregation

Sie sind dabei, unsere Webseite über einen externen Link zu verlassen. Bitte beachten Sie, dass der Inhalt der verlinkten Seite außerhalb unserer Kontrolle liegt.

Cookies und andere (Dritt-)Dienste

Diese Website speichert Cookies auf Ihrem Computer nur, wenn Sie dem ausdrücklich zustimmen. Bei Zustimmung werden insbesondere auch Dritt-Dienste eingebunden, die zusätzliche Funktionalitäten, wie beispielsweise die Buchung von Terminen, bereitstellen. Diese Cookies und Dienste werden verwendet, um Informationen darüber zu sammeln, wie Sie mit unserer Website interagieren, und um Ihre Browser-Erfahrung zu verbessern und anzupassen. Zudem nutzen wir diese Informationen für Analysen und Messungen zu unseren Besuchern auf dieser Website und anderen Medien. Weitere Informationen zu den von uns verwendeten Cookies und Dritt-Diensten finden Sie in unseren Datenschutzbestimmungen.