Lineare Regression
Hier finden Sie weitere Informationen zu den im Artikel verwendeten Beispieldaten
Darüber hinaus stellt die Lineare Regression die Grundlage für eine Vielzahl weiterführender Verfahren dar, etwa Logistische oder Multinomiale Regression, Mehrebenenregression, Verfahren zur Panel-Analyse etc. Übrigens lassen sich auch ANOVA und ANCOVA-Modelle als lineare Regressionen darstellen.
Mit einer lineare Regressionsanalyse lässt sich der Einfluss einer oder mehrerer Variablen auf eine kontinuierliche metrische Variable untersuchen. Als Beispiel dient uns die folgende Frage:
Erzielen SchülerInnen höhere Punktezahlen in einem Deutschtest, wenn sie mehr Zeit zum Lernen aufwenden und/oder wenn sie in der Nacht vor dem Test länger schlafen?
Lineare Regressionsanalysen werden in der Praxis zu unterschiedlichen Zwecken eingesetzt, u.a. um:
-
Zusammenhänge zu beschreiben:
"Um wie viele Punkte erhöht sich das Ergebnis im Deutschtest im Durchschnitt pro zusätzlicher Stunde Schlaf?"
-
Zusammenhänge zwischen zwei Variablen gegen Einflüsse von Drittvariablen abzusichern:
"Ist der Effekt der Schlafdauer vielleicht nur darauf zurückzuführen, dass die fleißigeren SchülerInnen früher zu Bett gehen?"
-
Zu testen, ob ein in einer Stichprobe gefundener Zusammenhang auf die Grundgesamtheit übertragen werden kann:
"Gibt es den gefundenen Zusammenhang nur für die untersuchten SchülerInnen, oder kann angenommen werden, dass ein solcher Zusammenhang für alle SchülerInnen besteht, aus denen die untersuchte Stichprobe ausgewählt wurde?"
-
Empirisch begründete Prognosen zu treffen:
"Welche Punktzahl wird eine Schülerin erzielen, wenn Sie 4,5 Stunden lernt und 7 Stunden schläft?"
Für nicht-metrische zu erklärende Variablen existieren weiterführende Verfahren, die auf dem Grundprinzip der linearen Regression aufbauen, etwa die Logistische Regression für binäre Merkmale (bzw. Anteile). Beispiele für nicht-metrische Variablen wären "welche Partei wird gewählt", "Test bestanden/nicht-bestanden" oder "Patient hat keine/leichte/starke Schmerzen"
Was meint "Zusammenhang"?
Zur Erinnerung: Zwei Variablen stehen in einem Zusammenhang, wenn die Werte der einen Variablen von den Werten der anderen abhängen - was dann natürlich auch umgekehrt gilt.
In einer Regressionsanalyse interessieren wir uns nun für den Einfluss einer oder mehrerer Variablen auf eine andere Variable - wir legen also die "Wirkrichtung" fest. Die beeinflusste (zu erklärende) Variable wird häufig als abhängige Variable bezeichnet, die beeinflussenden (erklärenden) Variablen nennen wir unabhängige Variablen.
- In unserem Beispiel ist die Punktzahl die abhängige Variable, Schlafdauer und Lernzeit sind unsere unabhängigen Variablen.
Um einen Zusammenhang zwischen zwei Variablen in einem Streudiagramm zu veranschaulichen ist es üblich, die abhängige Variable auf der y-Achse, die unabhängige Variable auf der x-Achse darzustellen:
Bivariate Zusammenhänge: Scatterplots
Beschreibung des Verfahrens
Wie wird der Zusammenhang in einer linearen Regression abgebildet?
Zur Erläuterung des Verfahrens beschränken wir uns zunächst auf den bivariaten Fall mit einer abhängigen und einer unabhängigen Variablen. Die Grundidee der linearen Regressionsanalyse ist es, eine Gerade in die Punktewolke zu legen, die den Zusammenhang möglichst gut wiedergibt.
- Um eine Gerade zu definieren, müssen wir nur die Steigung der Geraden
festlegen und den y-Achsenabschnitt bestimmen: . - Das lineare Regressionmodell kann aufgeschrieben werden als:
. Mit dem "Fehlerterm" berücksichtigen wir, dass die Beobachtungen (die Punkte im Streudiagramm) nicht alle auf der Geraden liegen, sondern von den mit bestimmten Werten abweichen werden.
Mit welchen Werten für die Steigung und den Achsenabschnitt lässt sich der Zusammenhang im folgenden Beispiel am besten beschreiben?
Das in unserem Beispiel geschätzte Regressionsmodell lautet ganz exakt:
Das statistische Modell der linearen Regression
In diesem Abschnitt wird das zugrunde gelegte lineare Modell ausführlicher erläutert.
Eine lineare Regressionsanalyse verwendet allgemein das folgende Modell, um eine (metrische) Variable auf
Die
Eine Anmerkungen zur Schreibweise: Häufig schreiben wir auch
Wenn wir den Index
Was ist eine Linearkombination?
Die rechte Seite der Regressionsfunktion ohne den Fehlerterm
- für Funktionen der Form
: eine Linie (Gerade) in einem zweidimensionalen Fläche, - für Funktionen der Form
: eine Fläche in einem dreidimensionalen Raum,
und allgemein: - für Funktionen der Form
: eine Linearkombination in einem höherdimensionalen Raum.
Der vermutete Zusammenhang zwischen Punktzahl und Schlafdauer lässt sich unter Verwendung einer Linearkombination wie folgt beschreiben:
Zusätzlich vermuten wir, dass auch die Lernzeit mit der Punktzahl zusammenhängt:
Wozu braucht das Modell einen "Fehlerterm"?
Die beobachteten Werte in unseren Daten liegen in der Regel natürlich nicht alle auf einer "Fläche" im mehrdimensionalen Raum. Die Differenz zwischen den vom Modell vorhergesagten Werten
Der Fehlerterm bildet damit den Einfluss weiterer, unbeobachteter Variablen und/oder Zufallsprozesse ab. In unserem Beispiel etwa bleiben neben vielen weiteren Einflüssen "Lerntyp", "sprachliches Talent" oder "Motivation" unberücksichtigt.
Ganz praktisch können wir uns vorstellen, dass ein lineares Regressionsmodell versucht, für alle Gruppen, die über unterschiedliche Kombinationen der Ausprägungen der
Damit ist nicht gesagt, dass die bedingten Erwartungswerte ("Gruppenmittelwerte") sich in der empirischen Realität tatsächlich auf einer Linie/Fläche/... befinden. Indem wir ein lineares Modell verwenden, setzen wir aber diese Struktur der empirischen Realität voraus! Wenn wir die Parameter
Bestimmung der Regressionsgerade
Wie wird festgelegt, was die "beste" Gerade ist?
Wenn wir "händisch" die "beste" Gerade suchen, erscheinen uns vermutlich mehrere Geraden ähnlich gut geeignet, um den Zusammenhang zu beschreiben. Wie kann entschieden werden, welches die beste Gerade ist? Die lineare Regressionsanalyse verwendet hier ein bestimmtes Verfahren, die "Methode der kleinsten Quadrate" (Ordinary Least Squares, OLS). Erfüllen die Daten einige rechnerische Voraussetzungen, lässt sich mit diesem Verfahren immer genau eine Gerade bestimmen, die den Zusammenhang bestmöglich beschreibt.
Bestimmung der Modellparameter
In diesem Abschnitt wird erläutert, wie die Methode der kleinsten Quadrate funktioniert.
Wie finden wir die Koeffizienten
Die Parameter sollen so gewählt werden, dass die Summe der quadrierten Fehlerterme - also der quadrierten Abstände der beobachteten Werte
Mit dieser Minimierungsbedingung lässt sich immer genau ein Set von Werten für die Parameter bestimmen, wenn die Daten einige grundlegende Anforderungen erfüllen.
Haben wir ein bestimmtes Set von Beobachtungsdaten für die Variablen
Für ein Modell mit einer unabhängigen Variable können wir die Zielfunktion in Abhängigkeit von den für a und b eingesetzten Werten grafisch darstellen:
Die Funktion verläuft als nach oben offene Parabel, bzw. "schüssel"-förmig - es gibt also ein eindeutiges Minimum. Unsere gesuchten Werte für die Parameter
In unserem Beispiel ergibt sich als Regressionsfunktion:
Wenn wir zusätzlich die Lernzeit berücksichtigen, erhalten wir folgende Regressionsgleichung:
Es fällt sofort auf, dass sich der Regressionskoeffizient für die Schlafdauer verändert, wenn wir den Einfluss der Lernzeit berücksichtigen. Es handelt sich hierbei um ein Beispiel für eine Drittvariablenkontrolle.
Die Lernzeit hängt in unserem Beispiel nicht nur mit der Punktzahl, sonder auch mit der Schlafdauer zusammen: Die Schüler und Schülerinnen, die sich gut auf die Prüfung vorbereitet haben schlafen länger (vielleicht nehmen sie die Prüfung insgesamt ernster, oder sie können beruhigter schlafen...). Dieser Zusammenhang führt dazu, dass der Effekt der Schlafdauer überschätzt wird, wenn wir nicht für die Lernzeit kontrollieren. Der Koeffizient der Schlafdauer bildet dann nämlich nicht nur den Effekt der Schlafdauer, sondern teilweise eben auch den Effekt der Lernzeit ab.
Rechnerische Lösung
Dieser Abschnitt zeigt, wie sich eine rechnerische Lösung für die OLS-Bedingung finden lässt.
Da wir ausschließen können, dass ein Maximum vorliegt, lassen sich die Parameterwerte aus der ersten Ableitung der Zielfunktion bestimmen. Konkret bilden wir die partiellen Ableitungen nach den zu bestimmenden Parametern und setzen diese gleich null. Es ergibt sich ein lineares Gleichungssystem, in unserem Beispiel mit zwei unabhängigen Variablen:
Das so hergeleitete Gleichungssystem kann - für jegliche Anzahl unabhängiger Variablen - in Matrixnotation als
geschrieben werden.
Für einen Datensatz mit vier beobachteten Fällen sieht die Gleichung mit ausgeschriebenen Matrizen wie folgt aus:
Die Gleichung lässt sich nach b umstellen:
(Zur Herleitung der Ableitungen und zur Umstellung der der Gleichung nach
Interpretation der Regressionsgleichung
Die Interpretation dieser Regressionsgleichung können wir uns am besten klar machen, indem wir einige Werte für die unabhängige Variable einsetzen und die geschätzten
- Die geschätzte Steigung der Regressionsgeraden beträgt
, d.h.: erhöht sich der Wert der unabhängigen Variable um eine Einheit (hier: eine Stunde Schlaf), schätzen wir einen um 9,8 Einheiten (hier: Test-Punkte) größeren Wert der abhängigen Variable. - Der Achsenabschnitt
kann als der geschätzte Wert für SchülerInnen mit 0 Stunden Schlaf interpretiert werden.
Häufig liest man die Interpretation "steigt der Wert der
Interpretation der Regressionsgleichung
Dieser Abschnitt geht ausführlicher auf die Interpretation der Regressionsgleichung ein.
Interpretation der Regressionskoeffizienten bis
In diesem Abschnitt wird die Interpretation der Regressionskoeffizienten vertieft.
Bei der Interpretation der Regressionskoeffizienten
Bei einer Erhöhung von
In unserem Beispiel (Modell mit Schlafzeit und Lernzeit):
- SchülerInnen, die eine Stunde länger lernen, haben bei gleichbleibender Schlafzeit eine im Schnitt um 4,5 höhere Punktzahl im Deutschtest.
- SchülerInnen, die eine Stunde länger schlafen, haben bei gleichbleibender Lernzeit eine im Schnitt um 4,8 höhere Punktzahl.
Eine ganz saubere Interpretation würde lauten:
- Wenn wir zwei Gruppen von SchülerInnen betrachten, die sich in ihrer Lernzeit um eine Stunde unterscheiden, aber die gleiche Schlafzeit aufweisen, erwarten wir einen Unterschied der mittleren Punktzahl von 4,8.
- Wenn wir zwei Gruppen von SchülerInnen betrachten, die sich in ihrer Schlafzeit um eine Stunde unterscheiden, aber die gleiche Lernzeit aufweisen, erwarten wir einen Unterschied der mittleren Punktzahl von 4,5.
Interpretation des Achsenabschnitts
Für die Interpretation des "Achsenabschnitts"
Um einen sinnvoll interpretierbaren Achsenabschnitt zu erhalten, könnten wie die
Regressionsgewichte?
In der Regel werden wir uns nicht nur für die Art des Zusammenhangs interessieren (mit wie viel zusätzlichen Mathepunkten kann ich bei einer Stunde mehr Lernzeit rechnen?), sondern auch für die Stärke des Effekts. Es ist naheliegend, hier die Koeffizienten heranzuziehen, die daher auch Regressionsgewichte genannt werden.
Ein einfacher Vergleich der Größe der Koeffizienten kann aber aus zwei Gründen problematisch sein:
- Die Größe der Koeffizienten hängt mit den Maßeinheiten der Variablen zusammen. In unserem Beispiel ist das unproblematisch, beide Variablen wurden in Stunden gemessen. Hätten wir aber z.B. die Lernzeit in Minuten erfasst, würden wir
erhalten. Noch problematischer wird es, wenn wir Variablen auf ganz anderen Skalen (etwa: beim Lernen konsumierte Schokolade in kg) betrachten wollen. - Ob eine Variable einen substantiv bedeutsamen Effekt hat, hängt auch mit der empirischen Verteilung zusammen. In unserem Beispiel unterscheiden sich die SchülerInnen in Ihrer Schlafzeit zwischen
und Stunden, in Ihrer Lernzeit aber nur nur zwischen und Stunden. Damit relativiert sich die ähnliche Größe der beiden Effekte: So liegt der "maximale Effekt" der Lernzeit nur bei Punkten, der "maximale Effekt" der Schlafzeit immerhin bei Punkten.
Vorhersagen anhand der Regressionsgleichung
Aus der grafischen Betrachtung wird auch klar, dass wir mit der geschätztem Regressionsgleichung für jeden gewünschten Wert der unabhängigen Variable
Wir sollten vorsichtig sein, Vorhersagen für Wertebereiche der unabhängigen Variablen zu treffen, für die wir keine Beobachtungen haben. Wir können die geschätzte Regressionsgleichung problemlos verwenden, um die Punktzahl für SchülerInnen vorherzusagen, die vor dem Test 48 Stunden lang schlafen. Es ist aber ganz offensichtlich unrealistisch, in einem solchen Fall mit einer Punktzahl von
Mehrere erklärende Variablen
Wie lassen sich weitere Variablen zur Erklärung berücksichtigen?
Hinweis: In den Level-2-Abschnitten haben wir bereits ein Modell mit mehr als einer unabhängigen Variable gezeigt.
Der große Vorteil von Regressionsmodellen ist es, dass sich die zur "Erklärung" der abhängigen Variable
Eine grafische Darstellung des Zusammenhangs sieht nun so aus:
Wir suchen nun nicht mehr nach der bestmöglichen Geraden durch eine 2D-Punktewolke, sondern nach der besten Fläche in einer 3D-Punktewolke. Die Fläche wird durch zwei Steigungen beschrieben - die Steigung der "Schlafdauer"-Achse und die Steigung der "Lernzeit"-Achse.
Die geschätzte Regressionsgleichung lautet in unserem Beispiel:
- Punktzahl =
Schlafdauer Lernzeit .
Die Interpretation der Steigungskoeffizienten
- Für eine/n Schüler/in mit einer Stunde mehr Schlaf erwarten wir ein um
Punkte besseres Testergebnis, wenn die Lernzeit gleich bleibt. - Für eine/n Schüler/in mit einer Stunde mehr Lernzeit erwarten wir ein um
Punkte besseres Testergebnis, wenn die Schlafdauer gleich bleibt.
Die Regressionsgleichung lässt sich leicht um weitere erklärende Variablen erweitern - eine grafische Darstellung ist dann nicht mehr möglich, da wir auf diese Weise 4D- oder höherdimensionale Räume definieren. Mit dem OLS-Verfahren können wir aber ohne Probleme die entsprechenden Steigungskoeffizienten schätzen.
Kausale Interpretation?
Die Bezeichnungen "erklärte" und "erklärende" Variablen legen nahe, dass mit einem Regressionsmodell kausale Zusammenhänge untersucht werden können. Das ist nicht so! Es ist wichtig sich klar zu machen, dass ein Regressionsmodell lediglich Zusammenhänge in beobachteten Daten beschreiben kann und keinen statistischen "Trick" darstellt, um kausale Zusammenhänge herbeizuzaubern.
Allerdings werden Regressionsmodelle in der Praxis häufig verwendet, um auch auf Grundlage von Beobachtungsdaten auf kausale Zusammenhänge zu schließen, in dem mögliche konkurrierende Einflüsse mittels Drittvariablenkontrolle ausgeschlossen werden. Ein solches Vorgehen kann eine kausale Interpretation aber immer nur plausibler machen und nie vollständig absichern.
Bei Formulierungen zur Interpretation der gefundenen Zusammenhänge sollten wir daher sehr vorsichtig sein, nicht anzudeuten, dass wir einen kausalen Effekt gefunden hätten.
Literaturhinweise
Wolf, Christof/Best, Henning (2010): Lineare Regressionsanalyse. In: Wolf, Christof/Best, Henning (Hg.), Handbuch der sozialwissenschaftlichen Datenanalyse, S. 607-638. Wiesbaden: VS Verlag für Sozialwissenschaften.