Lineare Regression L2

Einleitung

Lineare Regressionenbeantworten die Frage, ob und wie ein bestimmtes zu erklärendes Merkmal mit einem oder mehreren erklärenden Variablen zusammenhängt.

  • Erzielen SchülerInnen höhere Punktezahlen in einem Deutschtest, wenn sie mehr Zeit zum Lernen aufwenden und/oder wenn sie in der Nacht vor dem Test länger schlafen?

  • Haben Supermarktfilialen mit einem höheren Werbebudget und mehr MitarbeiterInnen höhere Umsätze?

Wenn das zu erklärende Merkmal - wie in unseren Beispielen - ein metrisches Skalenniveau aufweist, können wir solche Fragestellungen mit einer Linearen Regressionsanalyse untersuchen.

Für nicht-metrische zu erklärende Variablen existieren weiterführende Verfahren, die auf dem Grundprinzip der linearen Regression aufbauen, etwa die Logistische Regression für binäre Merkmale (oder Anteile). Eine Übersicht findet sich etwa hier.

In der Praxis werden Regressionsanalysen zu unterschiedlichen Zwecken eingesetzt, u.a. um:

Darüber hinaus stellt die Lineare Regression die Grundlage für eine Vielzahl weiterführender Verfahren dar, etwa Logistische oder Multinomiale Regression, Mehrebenenregression, Verfahren zur Panel-Analyse etc. Übrigens lassen sich auch ANOVA und ANCOVA-Modelle als lineare Regressionen darstellen.

Modell der linearen Regression

Modell der linearen Regression

Bei einer linearen Regressionsanalyse verwenden wir das folgende Modell, um eine (metrische) Variable auf \(k\) erklärende Variablen zurückzuführen:

\[ y = b_0 + b_{1} \cdot x_{1} + b_2 \cdot x_{2} + \ldots + b_{k} \cdot x_{k} + e \]

Die \( y \)-Werte ergeben sich also aus einer Linearkombination der Werte der erklärenden Variablen \( x_1 \) bis \( x_k \) und einem Fehlerterm \(e_i\), der den Einfluss weiterer, unbeobachteter Variablen und/oder Zufallsprozesse abbildet. Wir wollen die Modellparameter \(b_0\), \(b_1\), \(\ldots\) bis \(b_k\) bestimmen, um mit ihnen die empirisch vorliegenden Zusammenhänge zu beschreiben.

Eine Anmerkungen zur Schreibweise: Häufig schreiben wir auch

\[ y_i = b_{0} + b_{1} \cdot x_{1i} + b_2 \cdot x_{2i} + \ldots + b_{k} \cdot x_{ki} + e_i \]

Wenn wir den Index \( i \) für die Beobachtungen mit anführen betonen wir, dass sich die \( y \)-Werte konkreter Beobachtungen aus den zugeordneten \( x \)-Werten ergeben. Für den Intercept \( b_0 \) wird häufig auch - wie in unserem Level 1- Artikel - die Bezeichnung \( a \) verwendet.

Die Werte der Linearkombination stellen dann unsere (Punkt-)Schätzung für die Ausprägung von \( y \) für Kombinationen für Ausprägungen der x-Variablen dar, genauer: für die bedingten Erwartungswerte [LINK GLOSSAR: ]. (Das \( \hat{} \) zeigt an, dass es sich um geschätzte Werte handelt.)

\[ \hat{y} = E(y|x_1,x_2,...,x_k) = b_0 + b_1 \cdot x_{1} + b_2 \cdot x_{2i} + \ldots + b_k \cdot x_{k} \]

Ganz praktisch können wir uns vorstellen, dass ein lineares Regressionsmodell versucht, für alle Gruppen, die über unterschiedliche Kombinationen der Ausprägungen der \( x \)-Variablen definiert sind, die Mittelwerte der Variable \( y \) zu schätzen. Da es sich um ein lineares Modell handelt, liegen die geschätzten Werte im bivariaten Fall auf einer Geraden in der von \( x \) und \( y \) aufgespannten Ebene, im Fall von zwei erklärenden Variablen auf einer Fläche im von \( x_1 \), \( x_2 \) und \( y \) aufgespannten Raum. Modelle mit drei und mehr erklärenden Variablen sind grafisch nicht mehr darstellbar, aber rechnerisch problemlos umzusetzen.