AS testet

Das statistische Modell der linearen Regression

In diesem Abschnitt wird das zugrunde gelegte lineare Modell ausführlicher erläutert.

Eine lineare Regressionsanalyse verwendet allgemein das folgende Modell, um eine (metrische) Variable auf \( k \) erklärende Variablen zurückzuführen:

\[ y = b_0 + b_{1} \cdot x_{1} + b_2 \cdot x_{2} + \ldots + b_{k} \cdot x_{k} + e \]

Die \( y \)-Werte ergeben sich also aus einer Linearkombination der Werte der erklärenden Variablen \( x_1 \) bis \( x_k \) und einem Fehlerterm \( e_i \).

Eine Anmerkungen zur Schreibweise: Häufig schreiben wir auch

\[ y_{i} = b_{0} + b_{1} \cdot x_{1i} + b_{2} \cdot x_{2i} + \ldots + b_{k} \cdot x_{ki} + e_{i} \]
. Wenn wir den Index \\( i \\) für die Beobachtungen mit anführen betonen wir, dass sich die \\( y \\) -Werte konkreter Beobachtungen aus den zugeordneten \\( x \\)-Werten ergeben. Für den Intercept \\( b_0 \\) wird häufig auch - wie oben bei der Suche nach der "besten Geraden" - die Bezeichnung \\( a \\) verwendet.

Was ist eine Linearkombination?

Die rechte Seite der Regressionsfunktion ohne den Fehlerterm \( e_i \) ist eine Linearkombination der Form \( b0 + b{1} \cdot x_{1} + b2 \cdot x{2} + \ldots + b{k} \cdot x{k} \). Sie besteht aus den Koeffizienten \( b_0 \) bis \(b_k \) und den Variablen \( x_1 \) bis \( x_k \). Die Koeffizienten sind feste Werte, die Variablen können alle möglichen Werte annehmen. Wenn wir bestimmte Werte für die Koeffzienten wählen, ergibt sich durch Einsetzen aller möglichen Werte(-kombinationen) der \( x \)-Variablen:

  • für Funktionen der Form \( y = b0 + b{1} \cdot x_{1} \): eine Linie (Gerade) in einem zweidimensionalen Fläche,
  • für Funktionen der Form \( y = b0 + b{1} \cdot x_{1} + b2 \cdot x{2} \): eine Fläche in einem dreidimensionalen Raum, und allgemein:
  • für Funktionen der Form \( y = b0 + b{1} \cdot x_{1} + b2 \cdot x{2} + \ldots + b{k} \cdot x{k} \): eine Linearkombination in einem höherdimensionalen Raum.

Der vermutete Zusammenhang zwischen Punktzahl und Schlafdauer lässt sich unter Verwendung einer Linearkombination wie folgt beschreiben:

\[ \hat{Punkte} = b_0 + b_1 \cdot Schlafdauer \]

Zusätzlich vermuten wir, dass auch die Lernzeit mit der Punktzahl zusammenhängt:

\[ \hat{Punkte} = b_0 + b_1 \cdot Schlafdauer + b_2 \cdot Lernzeit \]

Wozu braucht das Modell einen *Fehlerterm*?

Die beobachteten Werte in unseren Daten liegen in der Regel natürlich nicht alle auf einer "Fläche" im mehrdimensionalen Raum. Die Differenz zwischen den vom Modell vorhergesagten Werten \( \hat{y} \) und den tatsächlich beobachteten Werten \( y \) kommt im Fehlerterm zum Ausdruck. Jeder einzelne beobachtete Wert kommt also aus dem systematischen Teil der Linearkombination (für alle Beobachtungen mit gleicher Kombination von \( x \)-Werten identisch) und dem als zufällig interpretierten Fehlerterm (für jede Beobachtung individuell) zu Stande.

\[ \hat{y} = E(y|x_1,x_2,...,x_k) = b_0 + b_1 \cdot x_{1} + b_2 \cdot x_{2i} + \ldots + b_k \cdot x_{k} \]

Der Fehlerterm bildet damit den Einfluss weiterer, unbeobachteter Variablen und/oder Zufallsprozesse ab. In unserem Beispiel etwa bleiben neben vielen weiteren Einflüssen "Lerntyp", "sprachliches Talent" oder "Motivation" unberücksichtigt.

Ganz praktisch können wir uns vorstellen, dass ein lineares Regressionsmodell versucht, für alle Gruppen, die über unterschiedliche Kombinationen der Ausprägungen der \( x \)-Variablen definiert sind, die Mittelwerte der Variable \( y \) zu schätzen - unter der Annahme, dass alle Mittelwerte auf einer Linie bzw. Fläche angeordnet sind.

Damit ist nicht gesagt, dass die bedingten Erwartungswerte ("Gruppenmittelwerte") sich in der empirischen Realität tatsächlich auf einer Linie/Fläche/... befinden. Indem wir ein lineares Modell verwenden, setzen wir aber diese Struktur der empirischen Realität voraus! Wenn wir die Parameter \( b_0 \), \( b_1 \), \( \ldots \) des Modells schätzen, erhalten wir die für unsere Daten optimalen Parameterwerte für dieses Modell. Ob die Ergebnisse und Interpretationen sinnvoll und aussagekräftig sind hängt aber davon ab, ob unsere Annahmen plausibel waren.

Überschrift

Überschrift des Elements

Überschrift

Überschrift des Elements

Überschrift

Überschrift des Elements

Überschrift

Überschrift des Elements