Regression

Einleitung

Mit einer lineare Regressionsanalysen lässt sich der Einfluss einer oder mehrerer Variablen auf eine metrische (kontinuierliche) Variable untersuchen:

  • Erzielen SchülerInnen höhere Punktezahlen in einem Deutschtest, wenn sie mehr Zeit zum Lernen aufwenden und/oder wenn sie in der Nacht vor dem Test länger schlafen?

Lineare Regressionsanalysen werden in der Praxis zu unterschiedlichen Zwecken eingesetzt, u.a. um:

  • Zusammenhänge zu beschreiben (“Um wie viele Punkte erhöht sich das Ergebnis im Deutschtest im Durchschnitt pro zusätzlicher Stunde Schlaf?”)
  • Zusammenhänge zwischen zwei Variablen gegen mögliche Drittvariablen-Effekte [–> Link Glossar] abzusichern (“Ist der Effekt der Schlafzeit vielleicht nur darauf zurückzuführen, dass die fleißigeren SchülerInnen früher zu Bett gehen?”)
  • Zu testen, ob ein in einer Stichprobe gefundener Zusammenhang auf die Grundgesamtheit übertragen werden kann (“”)
  • Empirisch begründete Prognosen zu treffen (“Welche Punktzahl wird eine Schülerin erzielen, wenn Sie 4,5 Stunden lernt und 7 Stunden schläft?”)

Was meint “Zusammenhang”?

Was meint “Zusammenhang”?

Zur Erinnerung: Zwei Variablen stehen in einem Zusammenhang, wenn die Werte der einen Variablen von den Werten der anderen abhängen - was dann natürlich auch umgekehrt gilt. [LINK “Zusammenhang - Kreuztabellen, Scatterplots”]

In einer Regressionsanalyse interessieren wir uns nun für den Einfluss einer oder mehrerer Variablen auf eine andere Variable - wir legen also die “Wirkrichtung” fest. Die beeinflusste (zu erklärende) Variable wird häufig als abhängige Variable bezeichnet, die beeinflussenden (erklärenden) Variablen nennen wir unabhängige Variablen.

  • In unserem Beispiel ist die Punktzahl die abhängige Variable, Schlafzeit und Lernzeit sind unsere unabhängigen Variablen.

Um einen Zusammenhang zwischen zwei Variablen in einem Streudiagramm zu veranschaulichen ist es üblich, die abhängige Variable auf der y-Achse, die unabhängige Variable auf der x-Achse darzustellen:

[H5P: Scatterplots für die (bivariaten) Beispiel-Zusammenhänge ]

Wie wird der Zusammenhang in einer linearen Regression abgebildet?

Die Grundidee der linearen Regressionsanalyse ist es, eine Gerade in diese Punktewolke zu legen, die den Zusammenhang möglichst gut wiedergibt.

  • Um eine Gerade zu definieren, müssen wir nur die Steigung der Geraden (b) festlegen und den y-Achsenabschnitt (a) bestimmen: \(y=a+b \cdot x\)
  • Das lineare Regressionmodell kann aufgeschrieben werden als: \(y=a+b \cdot x+e\)
    . Mit dem “Fehlerterm” e berücksichtigen wir, dass die Beobachtungen (die Punkte im Streudiagramm) nicht alle auf der Geraden liegen, sondern von den mit \(y=a+b \cdot x\)

    bestimmten Werten abweichen werden.

Mit welchen Werten für die Steigung und den Achsenabschnitt lässt sich der Zusammenhang im folgenden Beispiel am besten beschreiben?

Das in unserem Beispiel geschätzte Regressionsmodell lautet:

\(y=52,7+7,7 \cdot x + e\)

Regressionsgerade finden

Das in unserem Beispiel geschätzte Regressionsmodell lautet:

(y=52,7+7,7∗x+e)

Interpretation der Regressionsgleichung

Die Interpretation dieser Regressionsgleichung können wir uns am besten klar machen, indem wir einige Werte für die unabhängige Varible einsetzen und die geschätzten y-Werte berechnen:

Schätzwerte berechnen

Die geschätzte Steigung der Regressionsgeraden beträgt b=7,7, d.h.: erhöht sich der Wert der Wert der unabhängigen Variable um eine Einheit (hier: eine Stunde Schlaf), schätzen wir einen um 7,7 Einheiten (hier: Test-Punkte) größeren Wert der abhängigen Variable.

Der Achsenabschnitt a=52,7 kann als der geschätzte Wert für SchülerInnen mit 0 Stunden Schlaf interpretiert werden.