Regression

Regression ist ein statistisches Verfahren, mit dem der Zusammenhang von einer oder mehreren Größen (erklärende Variabl(en) oder Regressor(en)) auf eine Zielgröße (erklärte Variable oder Regressand) quantitativ modelliert wird. Liegen dabei nicht nur eine, sondern mehrere erklärende Variablen vor, so spricht man von multipler Regression.

Lineare Regression

Die lineare Regression ist die einfachste Form von Regression. Sie modelliert lineare Zusammenhänge à la “Für jedes Grad Celsius, um das die Tageshöchsttemperatur (erklärende Variable) steigt, steigt die Anzahl der Eisverkäufe pro Tag (Zielgröße) um eine feste Stückzahl.” Eine lineare Regression schätzt für jede erklärende Variable einen passenden Koeffizienten (Faktor), so dass sie in Summe die Zielgröße möglichst gut beschreiben. Graphisch lässt sich die Funktionsweise einer linearen Einfachregression (d.h. nur eine erklärende Variable) folgendermaßen veranschaulichen: Zeichnet man die Datenpunkte in ein Koordinatensystem (x-Achse: erklärende Variable; y-Achse: Zielgröße), so wird nach einer solchen Gerade gesucht, die die Datenpunkte möglichst gut approximiert.

Regressionsgerade einer einfachen linearen Regression im Scatterplot

Kollinearität

Von (stochastischer) Kollinearität spricht man, wenn eine erklärende Variable stark mit einer anderen erklärenden Variablen korreliert. Kollinearität ist ein typisches Problem in Regressionsmodellen. Sind zwei Variablen stark miteinander korreliert, lässt sich aus Daten- oder Modellsicht schwer entscheiden, welche der beiden tatsächlich Einfluss auf die zu erklärende Größe ausübt. Möglicherweise ist eine von beiden redundant. Vielleicht sind aus sachlogischer Sicht aber auch beide in einer geeigneten Gewichtung relevant. Kollinearität führt bei der Regression zu einer instabilen Schätzung der Modellkoeffizienten und erschwert generell die Interpretation des Modells. Korreliert eine erklärende Variable nicht nur mit einer sondern mit mehreren anderen erklärenden Variablen, so spricht man auch von Multikollinearität.

Regularisierte Regression

Regularisierte Regressionen sind spezielle Formen von Regressionen, bei denen Modellkomplexität bestraft wird mit dem Ziel ein möglichst robustes und generalisierbares Modell zu generieren und Overfitting zu vermeiden.

Um die Modellkomplexität bei der Schätzung des Modells zu berücksichtigen, werden neben den Abweichungen des Modells von den tatsächlichen Daten zusätzlich auch die Größenordnungen der Modellkoeffizienten betrachtet und geschickt kontrolliert. Beispiele für regularisierte Regressionen sind Ridge Regression, Lasso Regression und Elastic Nets.

Sie sind dabei, unsere Webseite über einen externen Link zu verlassen. Bitte beachten Sie, dass der Inhalt der verlinkten Seite außerhalb unserer Kontrolle liegt.

Cookies und andere (Dritt-)Dienste

Diese Website speichert Cookies auf Ihrem Computer nur, wenn Sie dem ausdrücklich zustimmen. Bei Zustimmung werden insbesondere auch Dritt-Dienste eingebunden, die zusätzliche Funktionalitäten, wie beispielsweise die Buchung von Terminen, bereitstellen. Diese Cookies und Dienste werden verwendet, um Informationen darüber zu sammeln, wie Sie mit unserer Website interagieren, und um Ihre Browser-Erfahrung zu verbessern und anzupassen. Zudem nutzen wir diese Informationen für Analysen und Messungen zu unseren Besuchern auf dieser Website und anderen Medien. Weitere Informationen zu den von uns verwendeten Cookies und Dritt-Diensten finden Sie in unseren Datenschutzbestimmungen.