Lineare Regression

Ein kurzer Überblick

Einleitung

Mit einer lineare Regressionsanalyse lässt sich der Einfluss einer oder mehrerer Variablen auf eine kontinuierliche metrische Variable untersuchen. Als Beispiel dient uns die folgende Frage:

Erzielen SchülerInnen höhere Punktezahlen in einem Deutschtest, wenn sie mehr Zeit zum Lernen aufwenden und/oder wenn sie in der Nacht vor dem Test länger schlafen?

Lineare Regressionsanalysen werden in der Praxis zu unterschiedlichen Zwecken eingesetzt, u.a. um:

  • Zusammenhänge zu beschreiben:

    "Um wie viele Punkte erhöht sich das Ergebnis im Deutschtest im Durchschnitt pro zusätzlicher Stunde Schlaf?"

  • Zusammenhänge zwischen zwei Variablen gegen Einflüsse von Drittvariablen abzusichern:

    "Ist der Effekt der Schlafdauer vielleicht nur darauf zurückzuführen, dass die fleißigeren SchülerInnen früher zu Bett gehen?"

  • Zu testen, ob ein in einer Stichprobe gefundener Zusammenhang auf die Grundgesamtheit übertragen werden kann:

    "Gibt es den gefundenen Zusammenhang nur für die untersuchten SchülerInnen, oder kann angenommen werden, dass ein solcher Zusammenhang für alle SchülerInnen besteht, aus denen die untersuchte Stichprobe ausgewählt wurde?"

  • Empirisch begründete Prognosen zu treffen:

    "Welche Punktzahl wird eine Schülerin erzielen, wenn Sie 4,5 Stunden lernt und 7 Stunden schläft?"

Darüber hinaus stellt die Lineare Regression die Grundlage für eine Vielzahl weiterführender Verfahren dar, etwa Logistische oder Multinomiale Regression, Mehrebenenregression, Verfahren zur Panel-Analyse etc. Übrigens lassen sich auch ANOVA und ANCOVA-Modelle als lineare Regressionen darstellen.

Für nicht-metrische zu erklärende Variablen existieren weiterführende Verfahren, die auf dem Grundprinzip der linearen Regression aufbauen, etwa die Logistische Regression für binäre Merkmale (bzw. Anteile). Beispiele für nicht-metrische Variablen wären "welche Partei wird gewählt", "Test bestanden/nicht-bestanden" oder "Patient hat keine/leichte/starke Schmerzen"

Was meint "Zusammenhang"?

Zur Erinnerung: Zwei Variablen stehen in einem Zusammenhang, wenn die Werte der einen Variablen von den Werten der anderen abhängen - was dann natürlich auch umgekehrt gilt.

In einer Regressionsanalyse interessieren wir uns nun für den Einfluss einer oder mehrerer Variablen auf eine andere Variable - wir legen also die "Wirkrichtung" fest. Die beeinflusste (zu erklärende) Variable wird häufig als abhängige Variable bezeichnet, die beeinflussenden (erklärenden) Variablen nennen wir unabhängige Variablen.

  • In unserem Beispiel ist die Punktzahl die abhängige Variable, Schlafdauer und Lernzeit sind unsere unabhängigen Variablen.

Um einen Zusammenhang zwischen zwei Variablen in einem Streudiagramm zu veranschaulichen ist es üblich, die abhängige Variable auf der y-Achse, die unabhängige Variable auf der x-Achse darzustellen:

Bivariate Zusammenhänge: Scatterplots

Beschreibung des Verfahrens

Wie wird der Zusammenhang in einer linearen Regression abgebildet?

Zur Erläuterung des Verfahrens beschränken wir uns zunächst auf den bivariaten Fall mit einer abhängigen und einer unabhängigen Variablen. Die Grundidee der linearen Regressionsanalyse ist es, eine Gerade in die Punktewolke zu legen, die den Zusammenhang möglichst gut wiedergibt.

  • Um eine Gerade zu definieren, müssen wir nur die Steigung der Geraden \( b \) festlegen und den y-Achsenabschnitt \( a \) bestimmen: \( y = a + b \cdot x \).
  • Das lineare Regressionmodell kann aufgeschrieben werden als: \( y = a + b \cdot x + e \). Mit dem "Fehlerterm" \( e \) berücksichtigen wir, dass die Beobachtungen (die Punkte im Streudiagramm) nicht alle auf der Geraden liegen, sondern von den mit \( y = a + b \cdot x \) bestimmten Werten abweichen werden.

Mit welchen Werten für die Steigung und den Achsenabschnitt lässt sich der Zusammenhang im folgenden Beispiel am besten beschreiben?

Das in unserem Beispiel geschätzte Regressionsmodell lautet ganz exakt:

\( y = 12,7 + 9,8 \cdot x + e \)

Das statistische Modell der linearen Regression

In diesem Abschnitt wird das zugrunde gelegte lineare Modell ausführlicher erläutert.

Eine lineare Regressionsanalyse verwendet allgemein das folgende Modell, um eine (metrische) Variable auf \( k \) erklärende Variablen zurückzuführen:

\[ y = b_{0} + b_{1} \cdot x_{1} + b_2 \cdot x_{2} + \ldots + b_{k} \cdot x_{k} + e \]

Die \( y \)-Werte ergeben sich also aus einer Linearkombination der Werte der erklärenden Variablen \( x_1 \) bis \( x_k \) und einem Fehlerterm \( e_i \).

Eine Anmerkungen zur Schreibweise: Häufig schreiben wir auch

\[ y_i = b_{0} + b_{1} \cdot x_{1i} + b_2 \cdot x_{2i} + \ldots + b_{k} \cdot x_{ki} + e_{i} \]

Wenn wir den Index \( i \) für die Beobachtungen mit anführen betonen wir, dass sich die \( y- \) Werte konkreter Beobachtungen aus den zugeordneten \( x \)-Werten ergeben. Für den Intercept \( b_{0} \) wird häufig auch - wie oben bei der Suche nach der "besten Geraden" - die Bezeichnung \( a \) verwendet.

Was ist eine Linearkombination?

Die rechte Seite der Regressionsfunktion ohne den Fehlerterm \( e_{i} \) ist eine Linearkombination der Form \( b_{0} + b_{1} \cdot x_{1} + b_{2} \cdot x_{2} + \ldots + b_{k} \cdot x_{k} \). Sie besteht aus den Koeffizienten \( b_0 \) bis \( b_k \) und den Variablen \( x_1 \) bis \( x_k \). Die Koeffizienten sind feste Werte, die Variablen können alle möglichen Werte annehmen. Wenn wir bestimmte Werte für die Koeffzienten wählen, ergibt sich durch Einsetzen aller möglichen Werte(-kombinationen) der \( x \)-Variablen:

  • für Funktionen der Form \( y = b_{0} + b_{1} \cdot x_{1} \): eine Linie (Gerade) in einem zweidimensionalen Fläche,
  • für Funktionen der Form \( y = b_{0} + b_{1} \cdot x_{1} + b_2 \cdot x_{2} \): eine Fläche in einem dreidimensionalen Raum, und allgemein:
  • für Funktionen der Form \( y = b_{0} + b_{1} \cdot x_{1} + b_2 \cdot x_{2} + \ldots + b_{k} \cdot x_{k} \): eine Linearkombination in einem höherdimensionalen Raum.

Der vermutete Zusammenhang zwischen Punktzahl und Schlafdauer lässt sich unter Verwendung einer Linearkombination wie folgt beschreiben:

\[ \hat{\text{Punkte}} = b_{0} + b_{1} \cdot \text{Schlafzeit} \]

Zusätzlich vermuten wir, dass auch die Lernzeit mit der Punktzahl zusammenhängt:

\[ \hat{\text{Punkte}} = b_{0} + b_{1} \cdot \text{Schlafzeit} + b_{2} \cdot \text{Lernzeit} \]

Wozu braucht das Modell einen "Fehlerterm"?

Die beobachteten Werte in unseren Daten liegen in der Regel natürlich nicht alle auf einer "Fläche" im mehrdimensionalen Raum. Die Differenz zwischen den vom Modell vorhergesagten Werten \( \hat{y} \) und den tatsächlich beobachteten Werten \( y \) kommt im Fehlerterm zum Ausdruck. Jeder einzelne beobachtete Wert kommt also aus dem systematischen Teil der Linearkombination (für alle Beobachtungen mit gleicher Kombination von \( x \)-Werten identisch) und dem als zufällig interpretierten Fehlerterm (für jede Beobachtung individuell) zu Stande.

\[ \hat{y} = E(y|x_1,x_2,...,x_k) = b_{0} + b_1 \cdot x_{1} + b_2 \cdot x_{2i} + \ldots + b_k \cdot x_{k} \]

Der Fehlerterm bildet damit den Einfluss weiterer, unbeobachteter Variablen und/oder Zufallsprozesse ab. In unserem Beispiel etwa bleiben neben vielen weiteren Einflüssen "Lerntyp", "sprachliches Talent" oder "Motivation" unberücksichtigt.

Ganz praktisch können wir uns vorstellen, dass ein lineares Regressionsmodell versucht, für alle Gruppen, die über unterschiedliche Kombinationen der Ausprägungen der \( x \)-Variablen definiert sind, die Mittelwerte der Variable \( y \) zu schätzen - unter der Annahme, dass alle Mittelwerte auf einer Linie bzw. Fläche angeordnet sind.

Damit ist nicht gesagt, dass die bedingten Erwartungswerte ("Gruppenmittelwerte") sich in der empirischen Realität tatsächlich auf einer Linie/Fläche/... befinden. Indem wir ein lineares Modell verwenden, setzen wir aber diese Struktur der empirischen Realität voraus! Wenn wir die Parameter \( b_0 \), \( b_1 \), \( \ldots \) des Modells schätzen, erhalten wir die für unsere Daten optimalen Parameterwerte für dieses Modell. Ob die Ergebnisse und Interpretationen sinnvoll und aussagekräftig sind hängt aber davon ab, ob unsere Annahmen plausibel waren.

Bestimmung der Regressionsgerade

Wie wird festgelegt, was die "beste" Gerade ist?

Wenn wir "händisch" die "beste" Gerade suchen, erscheinen uns vermutlich mehrere Geraden ähnlich gut geeignet, um den Zusammenhang zu beschreiben. Wie kann entschieden werden, welches die beste Gerade ist? Die lineare Regressionsanalyse verwendet hier ein bestimmtes Verfahren, die "Methode der kleinsten Quadrate" (Ordinary Least Squares, OLS). Erfüllen die Daten einige rechnerische Voraussetzungen, lässt sich mit diesem Verfahren immer genau eine Gerade bestimmen, die den Zusammenhang bestmöglich beschreibt.

Bestimmung der Modellparameter

In diesem Abschnitt wird erläutert, wie die Methode der kleinsten Quadrate funktioniert.

Wie finden wir die Koeffizienten \( b_0 \) bis \( b_k \), für die die geschätzten Werte \( \hat{y} \) den beobachteten Werten \( y \) "möglichst gut" entsprechen? Das bei einer linearen Regression verwendete Verfahren zur Bestimmung der Parameter stützt sich auf die Fehlerterme \( e_i \) und wird als Methode der kleinsten Quadrate oder Ordinary Least Squares-Kriterium bezeichnet:

Die Parameter sollen so gewählt werden, dass die Summe der quadrierten Fehlerterme - also der quadrierten Abstände der beobachteten Werte \( y_i \) von den geschätzten Werten \( \hat{y}_i \) - so klein wie möglich wird:

\[ min \sum_{_i=1}^n e_i^2 = min \sum_{_i=1}^n (y_i - \hat{y}_i)^2 = min \sum_{_i=1}^n (y_i - (b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \ldots + b_k \cdot x_{ki})^2 \]

Mit dieser Minimierungsbedingung lässt sich immer genau ein Set von Werten für die Parameter bestimmen, wenn die Daten einige grundlegende Anforderungen erfüllen.

Haben wir ein bestimmtes Set von Beobachtungsdaten für die Variablen \( y, x_1, \ldots , x_k \) vorliegen, sind die Werte der zu minimierenden Zielfunktion nur von den für die Parameter \( b_0, b_1, \ldots , b_k \) gewählten Werten abhängig:

\[ \sum_{i=1}^n (y_i - (b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \ldots + b_k \cdot x_{ki}))^2 \]

Für ein Modell mit einer unabhängigen Variable können wir die Zielfunktion in Abhängigkeit von den für a und b eingesetzten Werten grafisch darstellen:

Die Funktion verläuft als nach oben offene Parabel, bzw. "schüssel"-förmig - es gibt also ein eindeutiges Minimum. Unsere gesuchten Werte für die Parameter \( b_0 \), \( b_1 \), \( b_2, \ldots , b_k \) sind genau die Werte, an denen die Funktion den niedrigsten Wert aufweist.

In unserem Beispiel ergibt sich als Regressionsfunktion:

\[ Punkte = 12,7 + 9,8 \cdot Schlafzeit + e \]

Wenn wir zusätzlich die Lernzeit berücksichtigen, erhalten wir folgende Regressionsgleichung:

\[ Punkte = 13,3 + 4,8 \cdot Schlafzeit + 4,5 \cdot Lernzeit + e \]

Es fällt sofort auf, dass sich der Regressionskoeffizient für die Schlafdauer verändert, wenn wir den Einfluss der Lernzeit berücksichtigen. Es handelt sich hierbei um ein Beispiel für eine Drittvariablenkontrolle.

Die Lernzeit hängt in unserem Beispiel nicht nur mit der Punktzahl, sonder auch mit der Schlafdauer zusammen: Die Schüler und Schülerinnen, die sich gut auf die Prüfung vorbereitet haben schlafen länger (vielleicht nehmen sie die Prüfung insgesamt ernster, oder sie können beruhigter schlafen...). Dieser Zusammenhang führt dazu, dass der Effekt der Schlafdauer überschätzt wird, wenn wir nicht für die Lernzeit kontrollieren. Der Koeffizient der Schlafdauer bildet dann nämlich nicht nur den Effekt der Schlafdauer, sondern teilweise eben auch den Effekt der Lernzeit ab.

Rechnerische Lösung

Dieser Abschnitt zeigt, wie sich eine rechnerische Lösung für die OLS-Bedingung finden lässt.

Da wir ausschließen können, dass ein Maximum vorliegt, lassen sich die Parameterwerte aus der ersten Ableitung der Zielfunktion bestimmen. Konkret bilden wir die partiellen Ableitungen nach den zu bestimmenden Parametern und setzen diese gleich null. Es ergibt sich ein lineares Gleichungssystem, in unserem Beispiel mit zwei unabhängigen Variablen:

\[ \sum_{i=1}^n (y_i - b_0 - b_1 \cdot x_{1i} - b_2 \cdot x_{2i}) = 0 \]
\[ \sum_{i=1}^n x_{1i} \cdot (y_i - b_0 - b_1 \cdot x_{1i} - b_2 \cdot x_{2i}) = 0 \]
\[ \sum_{i=1}^n x_{2i} \cdot (y_i - b_0 - b_1 \cdot x_{1i} - b_2 \cdot x_{2i}) = 0 \]

Das so hergeleitete Gleichungssystem kann - für jegliche Anzahl unabhängiger Variablen - in Matrixnotation als

\[ X'(y - Xb)=0 \]

geschrieben werden.


Für einen Datensatz mit vier beobachteten Fällen sieht die Gleichung mit ausgeschriebenen Matrizen wie folgt aus:

\[ \begin{gather} \begin{bmatrix} 1 & 1 & 1 & 1 \\ x_{11} & x_{12} & x_{13} & x_{14} \\ x_{21} & x_{22} & x_{23} & x_{24} \end{bmatrix} \cdot \left( \begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ y_4 \end{bmatrix} - \begin{bmatrix} 1 & x_{11} & x_{21} \\ 1 & x_{12} & x_{22} \\ 1 & x_{13} & x_{23} \\ 1 & x_{14} & x_{24} \end{bmatrix} \cdot \begin{bmatrix} a & b \end{bmatrix} \right) = 0 \end{gather} \]

\( y_1,y_2,y_3 \) und \( y_4 \) sind hier die für vier Fälle beobachteten \( y \)-Werte, \( x_1,x_2,x_3 \) und \( x_4 \) die für die vier Fälle beobachteten \( x \)-Werte.

Die Gleichung lässt sich nach b umstellen:

\[ b = (X'X)^{-1}X'y \]

\( b \) ist hier ein Vektor, der die gesuchten Koeffizienten \( a \) und \( b \) enthält. Damit haben wir eine Formel, mit der wir die das OLS-Kriterium erfüllenden Parameterwerte direkt berechnen können.

(Zur Herleitung der Ableitungen und zur Umstellung der der Gleichung nach \( b \) vgl. Wolf/Best 2010: 614f.)

Interpretation der Regressionsgleichung

Die Interpretation dieser Regressionsgleichung können wir uns am besten klar machen, indem wir einige Werte für die unabhängige Varible einsetzen und die geschätzten \( y \)-Werte berechnen:

  • Die geschätzte Steigung der Regressionsgeraden beträgt \( b=9,8 \), d.h.: erhöht sich der Wert der unabhängigen Variable um eine Einheit (hier: eine Stunde Schlaf), schätzen wir einen um 9,8 Einheiten (hier: Test-Punkte) größeren Wert der abhängigen Variable.
  • Der Achsenabschnitt \( a = 12,7 \) kann als der geschätzte Wert für SchülerInnen mit 0 Stunden Schlaf interpretiert werden.

Häufig liest man die Interpretation "steigt der Wert der \( x \)-Variable um eine Einheit, dann steigt der Wert der \( y \)-Variable um \( b \) Einheiten" (hier: schläft ein/e SchülerIn eine Stunde länger, erzielt er/sie ein um 9.8 Punkte besseres Testresultat). Diese kausale, prozessuale Interpretation ist nur unter sehr weitreichenden Annahmen zulässig. Wir haben in unseren Daten nicht beobachtet, wie sich die Testergebnisse einer Person unterscheiden, wenn diese unterschiedlich lange schläft. Die Schätzung des Steigungskoeffizienten \( b \) beruht lediglich auf Gruppenvergleichen von Personen, die unterschiedlich lang geschlafen haben. Im Rahmen von Regressionsmodellen können wir aber versuchen, uns einer kausalen Interpretation durch die Kontrolle von Drittvariablen anzunähern.

Interpretation der Regressionsgleichung

Dieser Abschnitt geht ausführlicher auf die Interpretation der Regressionsgleichung ein.

Interpretation der Regressionskoeffizienten \( b_1 \) bis \( b_k \)

In diesem Abschnitt wird die Interpretation der Regressionskoeffizienten vertieft.

Bei der Interpretation der Regressionskoeffizienten \( b_1 \) bis \( b_k \) beziehen wir uns darauf, dass diese die Steigung der Regressionsgeraden (bzw. im multivariaten Fall: die Steigung in Richtung der jeweiligen x-Dimension) bestimmen:

Bei einer Erhöhung von \( x_k \) um eine \( x \)-Einheit ändert sich der für \( y \) geschätzte Wert um \( b_k \) \( y \)-Einheiten, wenn die Werte der weiteren unabhängigen Variablen im Modell konstant bleiben.

In unserem Beispiel (Modell mit Schlafzeit und Lernzeit):

  • SchülerInnen, die eine Stunde länger lernen, haben bei gleichbleibender Schlafzeit eine im Schnitt um 4,5 höhere Punktzahl im Deutschtest.
  • SchülerInnen, die eine Stunde länger schlafen, haben bei gleichbleibender Lernzeit eine im Schnitt um 4,8 höhere Punktzahl.

Eine ganz saubere Interpretation würde lauten:

  • Wenn wir zwei Gruppen von SchülerInnen betrachten, die sich in ihrer Lernzeit um eine Stunde unterscheiden, aber die gleiche Schlafzeit aufweisen, erwarten wir einen Unterschied der mittleren Punktzahl von 4,8.
  • Wenn wir zwei Gruppen von SchülerInnen betrachten, die sich in ihrer Schlafzeit um eine Stunde unterscheiden, aber die gleiche Lernzeit aufweisen, erwarten wir einen Unterschied der mittleren Punktzahl von 4,5.

Interpretation des Achsenabschnitts \( b_0 \)

Für die Interpretation des "Achsenabschnitts" \( b_0 = 13,3 \) müssen wir uns daran erinnern, dass dies der \( y \)-Wert ist, an dem die Gerade die y-Achse schneidet. Inhaltlich können wir den Wert daher als vorhergesagten \( y \)-Wert für Beobachtungen mit dem Wert 0 auf allen \( x \)-Variablen interpretieren. Da in unserem Beispiel niemand 0 Stunden geschlafen hat ist der Wert selbst hier nicht sinnvoll interpretierbar (wird aber zur Bestimmung der Regressionsgeraden benötigt).

Um einen sinnvoll interpretierbaren Achsenabschnitt zu erhalten, könnten wie die \( x \)-Variablen zentrieren. Dazu wird von jedem beobachteten Wert der Mittelwert der Variable abgezogen: \( x_{i, zentriert} = x_i - \bar{x} \). Wenn wir das Modell mit so zentrierten Variablen schätzen kann der Achsenabschnitt als vorhergesagter Wert für einen Fall mit mittlerem Wert auf allen erklärenden Variablen interpretiert werden.

Regressionsgewichte?

In der Regel werden wir uns nicht nur für die Art des Zusammenhangs interessieren (mit wie viel zusätzlichen Mathepunkten kann ich bei einer Stunde mehr Lernzeit rechnen?), sondern auch für die Stärke des Effekts. Es ist naheliegend, hier die Koeffizienten heranzuziehen, die daher auch Regressionsgewichte genannt werden. Ein einfacher Vergleich der Größe der Koeffizienten kann aber aus zwei Gründen problematisch sein:

  1. Die Größe der Koeffizienten hängt mit den Maßeinheiten der Variablen zusammen. In unserem Beispiel ist das unproblematisch, beide Variablen wurden in Stunden gemessen. Hätten wir aber z.B. die Lernzeit in Minuten erfasst, würden wir \( b_{Lernzeit}=4,6/60=0,077 \) erhalten. Noch problematischer wird es, wenn wir Variablen auf ganz anderen Skalen (etwa: beim Lernen konsumierte Schokolade in kg) betrachten wollen.
  2. Ob eine Variable einen substantiv bedeutsamen Effekt hat, hängt auch mit der empirischen Verteilung zusammen. In unserem Beispiel unterscheiden sich die SchülerInnen in Ihrer Schlafzeit zwischen \( 4,2 \) und \( 7,8 \) Stunden, in Ihrer Lernzeit aber nur nur zwischen \( 0,7 \) und \( 12,2 \) Stunden. Damit relativiert sich die ähnliche Größe der beiden Effekte: So liegt der "maximale Effekt" der Lernzeit nur bei \( (7,8-4,2) \cdot 4,8 = 17,3 \) Punkten, der "maximale Effekt" der Schlafzeit immerhin bei \( (12,2 - 0,7) \cdot 4,5 = 51,75 \) Punkten.

Vorhersagen anhand der Regressionsgleichung

Aus der grafischen Betrachtung wird auch klar, dass wir mit der geschätztem Regressionsgleichung für jeden gewünschten Wert der unabhängigen Variable \( x \) einen Wert der abhängigen Variable \( y \) berechnen können, egal ob es in unseren Daten einen Fall mit diesem \( x \)-Wert gibt oder nicht. Auf diese Weise lässt sich ein Regressionsmodell auch zur Vorhersage von Werten der abhängigen Variable für bestimmte Werte der unabhängigen Variable verwenden.

Wir sollten vorsichtig sein, Vorhersagen für Wertebereiche der unabhängigen Variablen zu treffen, für die wir keine Beobachtungen haben. Wir können die geschätzte Regressionsgleichung problemlos verwenden, um die Punktzahl für SchülerInnen vorherzusagen, die vor dem Test 48 Stunden lang schlafen. Es ist aber ganz offensichtlich unrealistisch, in einem solchen Fall mit einer Punktzahl von \( 12,7 + 48 \cdot 9,8 = 483,1 \) zu rechnen. Gleiches gilt für die Interpretation des Achsenabschnitts: Da wir in unseren Daten keine SchülerInnen beobachtet haben, die vor dem Test die Nacht durchgemacht haben (also eine Schlafdauer von 0 Stunden haben), sollten wir diesen Wert nicht als Vorhersage heranziehen.

Mehrere erklärende Variablen

Wie lassen sich weitere Variablen zur Erklärung berücksichtigen?

Hinweis: In den Level-2-Abschnitten haben wir bereits ein Modell mit mehr als einer unabhängigen Variable gezeigt.

Der große Vorteil von Regressionsmodellen ist es, dass sich die zur "Erklärung" der abhängigen Variable \( y \) verwendete lineare Gleichung \( a + b \cdot x + e \) leicht um weitere Variablen erweitern lässt. Soll in unserem Beispiel zusätzlich die Lernzeit berücksichtigt werden, lautet die Gleichung:

\[ Punktzahl = a + b_1 \cdot Schlafdauer + b_2 \cdot Lernzeit + e \]

Eine grafische Darstellung des Zusammenhangs sieht nun so aus:

Wir suchen nun nicht mehr nach der bestmöglichen Geraden durch eine 2D-Punktewolke, sondern nach der besten Fläche in einer 3D-Punktewolke. Die Fläche wird durch zwei Steigungen beschrieben - die Steigung der "Schlafdauer"-Achse und die Steigung der "Lernzeit"-Achse.

Die geschätzte Regressionsgleichung lautet in unserem Beispiel:

  • Punktzahl = \( 13.3 + 4,8 \cdot \) Schlafdauer \( + 4,5 \cdot \) Lernzeit \( + e \).

Die Interpretation der Steigungskoeffizienten \( b_1 \) und \( b_2 \) lautet nun:

  • Für eine/n Schüler/in mit einer Stunde mehr Schlaf erwarten wir ein um \(b_1= 4,8\) Punkte besseres Testergebnis, wenn die Lernzeit gleich bleibt.
  • Für eine/n Schüler/in mit einer Stunde mehr Lernzeit erwarten wir ein um \(b_2 = 4,5\) Punkte besseres Testergebnis, wenn die Schlafdauer gleich bleibt.

Die Regressionsgleichung lässt sich leicht um weitere erklärende Variablen erweitern - eine grafische Darstellung ist dann nicht mehr möglich, da wir auf diese Weise 4D- oder höherdimensionale Räume definieren. Mit dem OLS-Verfahren können wir aber ohne Probleme die entsprechenden Steigungskoeffizienten schätzen.

Kausale Interpretation?

Die Bezeichnungen "erklärte" und "erklärende" Variablen legen nahe, dass mit einem Regressionsmodell kausale Zusammenhänge untersucht werden können. Das ist nicht so! Es ist wichtig sich klar zu machen, dass ein Regressionsmodell lediglich Zusammenhänge in beobachteten Daten beschreiben kann und keinen statistischen "Trick" darstellt, um kausale Zusammenhänge herbeizuzaubern.

Allerdings werden Regressionsmodelle in der Praxis häufig verwendet, um auch auf Grundlage von Beobachtungsdaten auf kausale Zusammenhänge zu schließen, in dem mögliche konkurrierende Einflüsse mittels Drittvariablenkontrolle ausgeschlossen werden. Ein solches Vorgehen kann eine kausale Interpretation aber immer nur plausibler machen und nie vollständig absichern.

Bei Formulierungen zur Interpretation der gefundenen Zusammenhänge sollten wir daher sehr vorsichtig sein, nicht anzudeuten, dass wir einen kausalen Effekt gefunden hätten.

Praktische Umsetzung mit Statistiksoftware

Im folgenden Abschnitt schauen wir uns an, wie die oben gezeigte Regressionsanalyse in Stata durchgeführt wird.

Literaturhinweise

Wolf, Christof/Best, Henning (2010): Lineare Regressionsanalyse. In: Wolf, Christof/Best, Henning (Hg.), Handbuch der sozialwissenschaftlichen Datenanalyse, S. 607-638. Wiesbaden: VS Verlag für Sozialwissenschaften.