Hierarchische Aggregationsebene
Zeitreihen-Hierarchien
Beim Arbeiten mit Zeitreihen ist zunächst eine geeignete Definition der Zeitreihen zu finden. Dies beinhaltet, neben der Granularität beispielsweise, auch die Wahl einer geeigneten hierarchischen Ebene, auf welche die Daten aufsummiert (aggregiert) werden sollen. Der Begriff der hierarchischen Ebene soll mit nachfolgendem Beispiel veranschaulicht werden.
Ein Unternehmen hat Daten über den Verkauf seiner Produkte. Es werden die Artikelbezeichnung, die verkaufte Menge, die Kunden und das Verkaufsdatum erfasst:
Artikelbezeichnung | Verkaufsdatum | Menge | Kunde |
---|---|---|---|
Artikel1 | 2020-01-01 | 10 | Kunde1 |
Artikel1 | 2020-01-01 | 5 | Kunde2 |
Artikel1 | 2020-01-01 | 6 | Kunde3 |
Artikel1 | 2020-01-02 | 10 | Kunde1 |
Artikel1 | 2020-01-02 | 7 | Kunde4 |
Artikel1 | 2020-01-03 | 20 | Kunde1 |
Artikel1 | 2020-01-04 | 10 | Kunde1 |
Artikel1 | 2020-01-05 | 20 | Kunde1 |
Artikel2 | 2020-01-01 | 2 | Kunde5 |
Artikel2 | 2020-01-02 | 2 | Kunde5 |
Artikel2 | 2020-01-03 | 2 | Kunde5 |
Artikel2 | 2020-01-04 | 2 | Kunde5 |
Artikel2 | 2020-01-05 | 2 | Kunde5 |
... | ... | ... | ... |
Für die Definition von Artikelzeitreihen bieten sich hier verschiedene hierarchische Ebenen an. Die tiefste hierarchische Ebene entspricht der Definition einer Zeitreihe als Verkaufszahlen eines Artikels pro Kunde. Diese Definition führt zur Bildung von Zeitreihen, die sich anhand der ganzen verfügbaren Merkmale (Artikelbezeichnung, Verkaufsdatum, Menge, Kunde) unterscheiden.
Eine höhere hierarchische Ebene ist die Zeitreihe von Artikelverkaufszahlen wobei über alle Kunden summiert wird. Es ergibt sich dem obigen Beispiel folgend:
Artikelbezeichnung | Verkaufsdatum | Menge |
---|---|---|
Artikel1 | 2020-01-01 | 21 |
Artikel1 | 2020-01-02 | 17 |
Artikel1 | 2020-01-03 | 20 |
Artikel1 | 2020-01-04 | 10 |
Artikel1 | 2020-01-05 | 20 |
Artikel2 | 2020-01-01 | 2 |
Artikel2 | 2020-01-02 | 2 |
Artikel2 | 2020-01-03 | 2 |
Artikel2 | 2020-01-04 | 2 |
Artikel2 | 2020-01-05 | 2 |
... | ... | ... |
Das Merkmal Kunde ist bei diesem Schritt verloren gegangen.
Um Zeitreihen bilden zu können bedarf es mindestens einer Zeitinformation und eines dazu passenden Wertes. Somit entspricht die Zeitreihe der höchsten hierarchisch Ebene in unserem Beispiel der gesamten Verkaufsmenge.
Verkaufsdatum | Menge |
---|---|
2020-01-01 | 23 |
2020-01-02 | 19 |
2020-01-03 | 22 |
2020-01-04 | 12 |
2020-01-05 | 22 |
Wahl von hierarchischen Ebenen
Je höher die hierarchische Ebene ist, auf welche die Daten aggregiert werden, desto größer ist der Informationsverlust. Jedoch gibt es weitere Kriterien, die bei der Wahl einer geeigneten hierarchischen Ebene zu beachten und abzuwägen sind.
Motivation
Ein wesentlicher Punkt ist die generelle Motivation die hinter der Datenanalyse steckt. Primär sollte das Ziel sein, die Daten auf einer hierarchischen Ebene zu aggregieren, welche für nachfolgende Analysen von Interesse ist. Sind mehrere Ebenen von Interesse, so bieten sich mehrere Möglichkeiten. Falls auf der tiefsten Zielebene gearbeitet wird, so können Ergebnisse auf höheren Ebenen mittels Aggregation erzeugt werden. Im umgekehrten Fall müssen Zeitreihen von einer höheren Ebene erst auf die darunterliegenden Ebenen heruntergerechnet (disaggregiert) werden. Zuletzt können Analysen und Vorhersagen auch parallel auf verschiedenen Ebenen erarbeitet werden.
Prognostizierbarkeit
Die Wahl einer hierarchischen Ebene hat große Auswirkungen auf Charakteristiken der damit verbundenen Zeitreihen. Es besteht oftmals ein starker Zusammenhang zwischen gewählter hierarchischer Ebene und Prognostizierbarkeit, also über die voraussichtliche Güte der Vorhersagen.
Auf unteren Ebenen, wie zum Beispiel Artikel-Kunden Ebene, kann das Kaufverhalten einzelner Kunden sehr sporadisch sein und damit können auch die resultierenden Zeitreihen sehr verrauscht und sporadisch sein. Aggregiert man jedoch die Zeitreihen über alle Kunden hinweg, so können die entstehenden Artikel Zeitreihen starke saisonale Muster oder Trends aufweisen. Diese Charakteristiken können bei der Wahl der Artikel-Kunden Ebene verloren gehen.
Performance
Auch die Performance kann ein maßgeblicher Punkt bei der Wahl der Aggregationsebene sein. Die Laufzeit von Prozessierungsschritten hängt eng mit der Anzahl an zu prozessierenden Zeitreihen ab. Je tiefer also die gewählte hierarchische Ebene liegt, desto mehr Zeitreihen können generiert werden und desto größer kann der nachfolgende Prozessierungsaufwand werden.
Eindeutigkeit
Die Beziehung von Zeitreihen unterschiedlicher hierarchischer Ebenen muss nicht immer eindeutig sein. Entscheidet man sich beispielsweise für die Aggregationsebenen Artikel-Kunde und Artikel-Kunden_Standort, so muss nicht immer eine eindeutige Beziehung zwischen den resultierenden Zeitreihen bestehen (ein Kunde kann beispielsweise Niederlassungen in mehreren Ländern haben). Uneindeutige Beziehungen machen zusätzliche Regeln beim Aggregieren und Disaggregieren notwendig.
Hierarchische Prognosen
Unter Hierarchischen Prognosen versteht man Vorhersagen, die die unterschiedlichen Charakteristiken und Abhängigkeiten der einzelnen hierarchischen Ebenen berücksichtigen.
Die Disaggregation anhand von Mengenanteilen kann als hierarchische Prognose Methode verstanden werden. Dazu sagt man beispielsweise die Verkaufsmengen auf Artikel-Ebene vorher und disaggregiert auf Artikel-Kunden-Ebene, wobei man den Anteil jedes Kunden aus dessen Verkaufshistorie ermittelt.
Komplexere hierarchische Prognosemethoden treffen Vorhersagen auf allen hierarchischen Ebenen. Zusätzlich wird versucht den Prognosefehler auf jeder Ebene kleinzuhalten und dabei zueinander konsistente Vorhersagen zu liefern (Aufaggregieren der unteren Ebene liefert obere Ebene).