Regression
Regression ist ein statistisches Verfahren, mit dem der Zusammenhang von einer oder mehreren Größen (erklärende Variabl(en) oder Regressor(en)) auf eine Zielgröße (erklärte Variable oder Regressand) quantitativ modelliert wird. Liegen dabei nicht nur eine, sondern mehrere erklärende Variablen vor, so spricht man von multipler Regression.
Lineare Regression
Die lineare Regression ist die einfachste Form von Regression. Sie modelliert lineare Zusammenhänge à la “Für jedes Grad Celsius, um das die Tageshöchsttemperatur (erklärende Variable) steigt, steigt die Anzahl der Eisverkäufe pro Tag (Zielgröße) um eine feste Stückzahl.” Eine lineare Regression schätzt für jede erklärende Variable einen passenden Koeffizienten (Faktor), so dass sie in Summe die Zielgröße möglichst gut beschreiben. Graphisch lässt sich die Funktionsweise einer linearen Einfachregression (d.h. nur eine erklärende Variable) folgendermaßen veranschaulichen: Zeichnet man die Datenpunkte in ein Koordinatensystem (x-Achse: erklärende Variable; y-Achse: Zielgröße), so wird nach einer solchen Gerade gesucht, die die Datenpunkte möglichst gut approximiert.
Kollinearität
Von (stochastischer) Kollinearität spricht man, wenn eine erklärende Variable stark mit einer anderen erklärenden Variablen korreliert. Kollinearität ist ein typisches Problem in Regressionsmodellen. Sind zwei Variablen stark miteinander korreliert, lässt sich aus Daten- oder Modellsicht schwer entscheiden, welche der beiden tatsächlich Einfluss auf die zu erklärende Größe ausübt. Möglicherweise ist eine von beiden redundant. Vielleicht sind aus sachlogischer Sicht aber auch beide in einer geeigneten Gewichtung relevant. Kollinearität führt bei der Regression zu einer instabilen Schätzung der Modellkoeffizienten und erschwert generell die Interpretation des Modells. Korreliert eine erklärende Variable nicht nur mit einer sondern mit mehreren anderen erklärenden Variablen, so spricht man auch von Multikollinearität.
Regularisierte Regression
Regularisierte Regressionen sind spezielle Formen von Regressionen, bei denen Modellkomplexität bestraft wird mit dem Ziel ein möglichst robustes und generalisierbares Modell zu generieren und Overfitting zu vermeiden.
Um die Modellkomplexität bei der Schätzung des Modells zu berücksichtigen, werden neben den Abweichungen des Modells von den tatsächlichen Daten zusätzlich auch die Größenordnungen der Modellkoeffizienten betrachtet und geschickt kontrolliert. Beispiele für regularisierte Regressionen sind Ridge Regression, Lasso Regression und Elastic Nets.
- Bei einer Ridge Regression gehen neben den quadrierten Modellfehlern ebenfalls die quadrierten Koeffizienten in die Kostenfunktion zur Schätzung des Modells mit ein.
- Bei einer Lasso Regression werden an dieser Stelle die Absolutwerte der Koeffizienten betrachtet.
- Elastic Net kombiniert beide Arten der Penalisierung. Sowohl Ridge wie auch Lasso Regression sind Randfälle eines Elastic Nets.