Random Forest
Ein Random Forest ist ein Supervised-Learning-Verfahren zur Klassifikation und Regression von Daten, in dem verschiedene, möglichst unterschiedliche Entscheidungsbäume generiert werden. Die Werte bzw. Klassen, die aus den verschiedenen Entscheidungsbäumen resultieren (siehe hierzu auch CART), werden hierbei zu einem Ergebnis kombiniert und können dadurch genauere Ergebnisse liefern als ein einzelner Entscheidungsbaum.
Um einen Entscheidungsbaum zu konstruieren, der bekannte Daten möglichst gut in verschiedene Klassen einteilt, wird für jede Verzweigung (Knoten) das Attribut gesucht, das die vorhandenen Daten am besten klassifiziert. Bei der Konstruktion von Entscheidungsbäumen eines Random Forests wird nun für jeden Knoten jeweils nur aus einem zufälligen Teil der möglichen Attribute das Beste ausgewählt, so dass unterschiedliche Entscheidungsbäume zur Klassifikation der Daten entstehen. Zusätzlich können verschiedene Datensätze betrachtet werden, die durch das Weglassen und Duplizieren von Daten aus dem vorhandenen Datensatz generiert werden (Bagging).
Die Ergebnisse der unterschiedlichen Entscheidungsbäume werden dann, z. B. als gewichteter Mittelwert, zu einem Gesamtergebnis kombiniert. Indem ein Ensemble aus Entscheidungsbäumen betrachtet wird, enthält dieses Gesamtergebnis Erkenntnisse aus den vielen einzelnen Entscheidungsbäumen, wodurch eine bessere Klassifikation erzielt werden kann (siehe hierzu auch Ensemble Methoden). Von Bedeutung ist hierbei, dass die verschiedenen Entscheidungsbäume möglichst unkorreliert, also nicht zu ähnlich, sind.
Random Forests sind auch für große Datensätze mit vielen Attributen, Merkmalen und Trainingsdaten ein effizientes Verfahren. Im Zeitreihenkontext folgt aus der durch den Random Forest bestimmten Klasse die Prognose.