Lineare Regression L2

Einleitung

Mit einer lineare Regressionsanalysen lässt sich der Einfluss einer oder mehrerer Variablen auf eine metrische (kontinuierliche) Variable untersuchen:

[ H5P: LISTE VON BEISPIELEN ALS BILDERFOLGE/SLIDER?]

  • Erzielen SchülerInnen höhere Punktezahlen in einem Deutschtest, wenn sie mehr Zeit zum Lernen aufwenden und/oder wenn sie in der Nacht vor dem Test länger schlafen?

Lineare Regressionsanalysen werden in der Praxis zu unterschiedlichen Zwecken eingesetzt, u.a. um:

  • Zusammenhänge zu beschreiben ("Um wie viele Punkte erhöht sich das Ergebnis im Deutschtest im Durchschnitt pro zusätzlicher Stunde Schlaf?")
  • Zusammenhänge zwischen zwei Variablen gegen mögliche Drittvariablen-Effekte [--> Link Glossar] abzusichern ("Ist der Effekt der Schlafzeit vielleicht nur darauf zurückzuführen, dass die fleißigeren SchülerInnen früher zu Bett gehen?")
  • Zu testen, ob ein in einer Stichprobe gefundener Zusammenhang auf die Grundgesamtheit übertragen werden kann ("")
  • Empirisch begründete Prognosen zu treffen ("Welche Punktzahl wird eine Schülerin erzielen, wenn Sie 4,5 Stunden lernt und 7 Stunden schläft?")

Modell der linearen Regression

Bei einer linearen Regressionsanalyse verwenden wir das folgende Modell, um eine (metrische) Variable auf \(k\) erklärende Variablen zurückzuführen:

\[y = a + b{1} \cdot x{1} + b2 \cdot x{2} + \ldots + b{k} \cdot x{k} + e_i\]

- [MIND THE METHOD]: Für den Intercept \\(a\\) wird häufig auch die Bezeichnung \\(b_0\\) verwendet. Die Modellgleichung kann in Matrix-Notation auch als (\y  = Xb + e \\) aufgeschrieben werden.

Wir erklären den \(y\)-Wert einer Beobachtung \(i\) mit einer Linearkombination der Werte der erklärenden Variablen \(x_1\) bis \(x_k\) und einem Fehlerterm \(e_i\), der den Einfluss weiterer, unbeobachteter Variablen und/oder Zufallsprozesse abbildet.

Die Werte der Linearkombination stellen dann unsere (Punkt-)Schätzung für die Ausprägung von \(y\) für Kombinationen für Ausprägungen der x-Variablen dar, genauer: für die bedingten Erwartungswerte: (Das \(\hat{}\) zeigt an, dass es sich um geschätzte Werte handelt.)

[\hat{y} = E(y|X=x) = a + b1 \cdot x{1} + b2 \cdot x{2i} + \ldots + bk \cdot x{k} ]

Geschätzt werden sollen die Parameter \(a\) und \(b_1\) bis \(b_k\) - und zwar so, dass die geschätzten Werte \(\hat{y}\) den beobachteten Werten \(y\) möglichst gut entsprechen.

Dazu verwendet die lineare Regression ein bestimmtes Kriterium, das als Methode der kleinsten Quadrate oder Ordinary Least Squares-Kriterium bezeichnet wird: Die Parameter sollen so gewählt werden, dass die Summe der quadrierten Fehlerterme minimiert wird:

[ min \sum_{_i=1}^n ei^2 = min \sum{_i=1}^n (y_i - \hat{y}_i)^2 ]

Wie wir sehen werden lässt sich mit dieser Minimierungsbedingung immer genau ein "bestes" Set von Werten für die Parameter bestimmen, wenn die Daten einige grundlegende Anforderungen erfüllen.

Schätzung der Modellparameter

Umsetzung in Softwareprogrammen

Stata

Mit dem folgenden Befehl können wir eine lineare Regression mit einer abhängigen und ein oder mehr unabhängigen Variablen in Stata schätzen:

regress *[abhängige Variable]* *[1. unabhängige Variable]* *[2. unabhängige Variable]* *...*

Statt "regress" können wir auch kurz "reg" verwenden.

Stata liefert zum Beispiel das folgende Ergebnis. Hier ist die erreichte Punktzahl in einem Mathetest die abhängige Variable und die Schlafzeit und Lernzeit (jeweils in Stunden) sind die erklärenden Variablen.

Unter der Überschrift "Coef." lassen sich die Koeffizienten des Regressionsmodells ablesen:

  • Der Parameter der Variable Schlafzeit beträgt 4,77.
  • Der Parameter der Variable Lernzeit beträgt 9,97.
  • Der Achsenabschnitt (hier: "_cons" für Konstante) beträgt 4,78.

Unter "R-squared" können wir den Determinationskoeffizient \(R^2\) ablesen:

  • In unserem Beispiel beträgt er 0,6424; d.h. 64,24% der Variation der Mathetest-Ergebnisse können durch die Variationen in der Schlafzeit und der Lernzeit erklärt werden.

Hieraus lässt sich die Regressionsgleichung des Modells bestimmen. Sie lautet in unserem Beispiel:

\(y = 4,78 + 4,77 \cdot Schlafzeit + 9,97 \cdot Lernzeit + e\)