Lineare Regression

Einleitung

Mit einer lineare Regressionsanalysen lässt sich der Einfluss einer oder mehrerer Variablen auf eine metrische (kontinuierliche) Variable untersuchen:

  • Erzielen SchülerInnen höhere Punktezahlen in einem Deutschtest, wenn sie mehr Zeit zum Lernen aufwenden und/oder wenn sie in der Nacht vor dem Test länger schlafen?

Lineare Regressionsanalysen werden in der Praxis zu unterschiedlichen Zwecken eingesetzt, u.a. um:

  • Zusammenhänge zu beschreiben ("Um wie viele Punkte erhöht sich das Ergebnis im Deutschtest im Durchschnitt pro zusätzlicher Stunde Schlaf?")
  • Zusammenhänge zwischen zwei Variablen gegen mögliche Drittvariablen-Effekte [--> Link Glossar] abzusichern ("Ist der Effekt der Schlafzeit vielleicht nur darauf zurückzuführen, dass die fleißigeren SchülerInnen früher zu Bett gehen?")
  • Zu testen, ob ein in einer Stichprobe gefundener Zusammenhang auf die Grundgesamtheit übertragen werden kann ("")
  • Empirisch begründete Prognosen zu treffen ("Welche Punktzahl wird eine Schülerin erzielen, wenn Sie 4,5 Stunden lernt und 7 Stunden schläft?")

Was meint "Zusammenhang"?

Zur Erinnerung: Zwei Variablen stehen in einem Zusammenhang, wenn die Werte der einen Variablen von den Werten der anderen abhängen - was dann natürlich auch umgekehrt gilt. [LINK "Zusammenhang - Kreuztabellen, Scatterplots"]

In einer Regressionsanalyse interessieren wir uns nun für den Einfluss einer oder mehrerer Variablen auf eine andere Variable - wir legen also die "Wirkrichtung" fest. Die beeinflusste (zu erklärende) Variable wird häufig als abhängige Variable bezeichnet, die beeinflussenden (erklärenden) Variablen nennen wir unabhängige Variablen.

  • In unserem Beispiel ist die Punktzahl die abhängige Variable, Schlafzeit und Lernzeit sind unsere unabhängigen Variablen.

Um einen Zusammenhang zwischen zwei Variablen in einem Streudiagramm zu veranschaulichen ist es üblich, die abhängige Variable auf der y-Achse, die unabhängige Variable auf der x-Achse darzustellen:

[H5P: Scatterplots für die (bivariaten) Beispiel-Zusammenhänge ]

Beschreibung des Verfahrens

Wie wird der Zusammenhang in einer linearen Regression abgebildet?

Die Grundidee der linearen Regressionsanalyse ist es, eine Gerade in diese Punktewolke zu legen, die den Zusammenhang möglichst gut wiedergibt.

  • Um eine Gerade zu definieren, müssen wir nur die Steigung der Geraden (b) festlegen und den y-Achsenabschnitt (a) bestimmen: \(y = a + b \cdot x\).
  • Das lineare Regressionmodell kann aufgeschrieben werden als: \(y = a + b \cdot x + e\). Mit dem "Fehlerterm" \(e\) berücksichtigen wir, dass die Beobachtungen (die Punkte im Streudiagramm) nicht alle auf der Geraden liegen, sondern von den mit \(y = a + b \cdot x\) bestimmten Werten abweichen werden.

Mit welchen Werten für die Steigung und den Achsenabschnitt lässt sich der Zusammenhang im folgenden Beispiel am besten beschreiben?

Das in unserem Beispiel geschätzte Regressionsmodell lautet:

\(y = 52,7 + 7,7 \cdot x + e\)

Interpretation der Regressionsgleichung

Die Interpretation dieser Regressionsgleichung können wir uns am besten klar machen, indem wir einige Werte für die unabhängige Varible einsetzen und die geschätzten y-Werte berechnen:

  • Die geschätzte Steigung der Regressionsgeraden beträgt \(b=7,7\), d.h.: erhöht sich der Wert der Wert der unabhängigen Variable um eine Einheit (hier: eine Stunde Schlaf), schätzen wir einen um 7,7 Einheiten (hier: Test-Punkte) größeren Wert der abhängigen Variable.
  • Der Achsenabschnitt \(a = 52,7\) kann als der geschätzte Wert für SchülerInnen mit 0 Stunden Schlaf interpretiert werden.
Häufig liest man die Interpretation "steigt der Wert der x-Variable um eine Einheit, dann steigt der Wert der y-Variable um b Einheiten" (hier: schläft ein/e SchülerIn eine Stunde länger, erzielt er/sie ein um 7.7 Punkte besseres Testresultat). Diese *kausale*, prozessuale Interpretation ist nur unter sehr weitreichenden Annahmen zulässig [LINK]. Wir haben in unseren Daten nicht beobachtet, wie sich die Testergebnisse einer Person unterscheiden, wenn diese unterschiedlich lange schläft. Die Schätzung des Steigungskoeffizienten \\(b\\) beruht lediglich auf Gruppenvergleichen von Personen, die unterschiedlich lang geschlafen haben. Im Rahmen von Regressionsmodellen können wir aber versuchen, uns einer kausalen Interpretation durch die *Kontrolle von Drittvariablen* [LINK] anzunähern.

Vorhersagen anhand der Regressionsgleichung

Aus der grafischen Betrachtung wird auch klar, dass wir mit der geschätztem Regressionsgleichung für jeden gewünschten Wert der unabhängigen Variable x einen Wert der abhängigen Variable y berechnen können, egal ob es in unseren Daten einen Fall mit diesem x-Wert gibt oder nicht. Auf diese Weise lässt sich ein Regressionsmodell auch zur Vorhersage von Werten der abhängigen Variable für bestimmte Werte der unabhängigen Variable verwenden.

- Es ist wichtig zu beachten, dass der Steigungskoeffizient b nur dann eine korrekte Schätzung für den Zusammenhang zwischen unabhängiger und abhängiger Variable darstellt, wenn die Daten eine Reihe von Voraussetzungen erfüllen. Die notwendigen Annahmen werden [LINK:] in Level 2 erläutert. - In jedem Fall sollten wir vorsichtig sein, Vorhersagen für Wertebereiche der unabhängigen Variablen zu treffen, für die wir keine Beobachtungen haben. Wir können die geschätzte Regressionsgleichung problemlos verwenden, um die Punktzahl für SchülerInnen vorherzusagen, die vor dem Test 48 Stunden lang schlafen. Es ist aber ganz offensichtlich unrealistisch, in einem solchen Fall mit einer Punktzahl von 423.6 zu rechnen. Gleiches gilt für die Interpretation des Achsenabschnitts: Da wir in unseren Daten keine SchülerInnen beobachtet haben, die vor dem Test durchgemacht haben, sollten wir diesen Wert nicht als Vorhersage heranziehen.

Wie wird festgelegt, was die "beste" Gerade ist?

Wenn wir "händisch" die "beste" Gerade suchen, erscheinen uns vermutlich mehrere Geraden ähnlich gut geeignet, um den Zusammenhang zu beschreiben. Wie kann entschieden werden, welches die beste Gerade ist? Die lineare Regressionsanalyse verwendet hier ein bestimmtes Verfahren, die "Methode der kleinsten Quadrate" (Ordinary Least Squares, OLS). Erfüllen die Daten einige rechnerische Voraussetzungen, lässt sich mit diesem Verfahren immer genau eine Gerade bestimmen, die den Zusammenhang bestmöglich beschreibt. Das OLS-Kriterium wird in Level 2 näher erläutert.

Wie gut beschreibt die Regressionsgerade den Zusammenhang?

Neben der Steigung der Regressionsgeraden interessiert uns vor allem, wie gut die geschätzte Gerade den Zusammenhang beschreibt - liegen wir mit den geschätzten y-Werten nah an den beobachteten y-Werten, oder weichen die Beobachtungen stark von der Regressionsgeraden ab (d.h., sind die Residuen vergleichsweise groß oder klein)?

Zur Beantwortung dieser Frage können wir den Determinationskoeffizient \(R^2\) (auch: Bestimmtheitsmaß) heranziehen. \(R^2\) kann Werte zwischen 0 und 1 annehmen und kann interpretiert werden als der Anteil der Unterschiede der Werte der abhängigen Variable, der durch die unabhängigen Variablen erklärt werden kann. In unserem Beispiel erklärt die Schlafzeit 19,1% der Variation der Mathetest-Ergebnisse, \(R^2 = 0,1911\).

Die Grafik zeigt Beispiele für unterschiedlich "gut beschriebene" Zusammenhänge und die dazugehörigen \(R^2\)-Werte

grafik_uebersicht_r2.png

Wie lassen sich weitere Variablen zur Erklärung berücksichtigen?

Der große Vorteil von Regressionsmodellen ist es, dass sich die zur "Erklärung" der abhängigen Variable \(y\) verwendete lineare Gleichung \(a + b \cdot x + e\) leicht um weitere Variablen erweitern lässt. Soll in unserem Beispiel zusätzlich die Lernzeit berücksichtigt werden, lautet die Gleichung:

  • Punktzahl = \(a + b_1 \cdot \)Schlafzeit \(+ b_2 \cdot \) Lernzeit \(+ e\)

Eine grafische Darstellung des Zusammenhangs sieht nun so aus:

Wir suchen nun nicht mehr nach der bestmöglichen Geraden durch eine 2D-Punktewolke, sondern nach der besten Fläche in einer 3D-Punktewolke. Die Fläche wird durch zwei Steigungen beschrieben - die Steigung der "Schlafzeit"-Achse und die Steigung der "Lernzeit"-Achse.

Die geschätzte Regressionsgleichung lautet in unserem Beispiel:

  • Punktzahl = \(-0.3 + 4.7 \cdot \)Schlafzeit \(+ 10.8 \cdot \) Lernzeit \(+ e\), mit \(R^2=0.67\)

Die Interpretation der Steigungskoeffizienten \(b_1\) und \(b_2\) lautet nun:

  • Für eine/n Schüler/in mit einer Stunde mehr Schlaf erwarten wir ein um \(b_1= 4,7\) Punkte besseres Testergebnis, wenn die Lernzeit gleich bleibt.
  • Für eine/n Schüler/in mit einer Stunde mehr Lernzeit erwarten wir ein um \(b_2 = 10.8\) Punkte besseres Testergebnis, wenn die Schlafzeit gleich bleibt.

Der Determinationskoeffizient \(R^2=0,67\) ist für diese Regression größer als der Determinationskoeffizient für das Modell ohne Lernzeit ( \(R^2=0.19 \) ). Wenn wir zusätzlich zur Schlafzeit die Lernzeit berücksichtigen, können wir also einen wesentlich größeren Teil der Unterschiede in den Mathe-Punkten erklären - das Modell ist sogesehen "besser".

Die Regressionsgleichung lässt sich leicht um weitere erklärende Variablen erweitern - eine grafische Darstellung ist dann nicht mehr möglich, da wir auf diese Weise 4D- oder höherdimensionale Räume definieren. Mit dem OLS-Verfahren können wir aber ohne Probleme die entsprechenden Steigungskoeffizienten schätzen.

Wie lassen sich die Ergebnisse am besten darstellen?

In Veröffentlichungen werden Ergebnisse von Regressionsmodellen häufig in tabellarischer Form dargestellt. Dazu werden die Schätzwerte für die Koeffizienten \(a\) und \(b\) untereinander notiert. Darunter können noch weitere Modellparameter, wie z.B. \(R^2\), dargestellt werden.

Häufig werden mehrere Modelle mit unterschiedlichen Spezifikationen (z.B.: mit mehr oder weniger unabhängigen Variablen) in Spalten nebeneinandergestellt - so lassen sich die Unterschiede in den Effekten gut vergleichen. Unsere beiden Beispielmodelle könnten so dargestellt werden:

. Model 1 Model 2
Achsenabschnitt 52,7 -0.3
Schlafzeit 7,7 4,7
Lernzeit 10,8
R^2 0, 0,67