Determinationskoeffizient
Wie gut beschreibt das Modell die Daten?
Mit der Steigung und dem Achsenabschnitt der Regressionsgeraden haben wir bereits zwei wesentliche Punkte, um die Art des Zusammenhangs in unserem Datenbeispiel zu beschreiben. Ein wichtiger Aspekt fehlt aber noch: Wie gut beschreibt die gefundene Gerade die beobachteten Daten? Liegen wir mit den geschätzten
Die folgende Grafik zeigt Beispiele für unterschiedlich "gut beschriebene" Zusammenhänge. Obwohl die Regressionsgeraden teilweise identisch sind, unterscheiden sich die Zusammenhänge deutlich.
Diesen Aspekt des Zusammenhangs zwischen den Variablen beschreibt der Determinationskoeffizient
: Die unabhängigen Variablen können überhaupt nicht erklären - in diesen Fall finden wir auch keine Steigung der Regressionsgeraden, also alle . : Die unabhängigen Variablen erklären vollständig - alle beobachteten -Werte liegen auf der Regressionsgeraden : Die unabhängigen Variablen erklären 70% der Unterschiede in - 30% der Unterschiede können wir nicht erklären.
In unserem Beispiel erklärt die Schlafzeit 18,6% der Variation der Deutschtest-Ergebnisse,
Herleitung von
Dieser Abschnitt zeigt, wie
Die Grundüberlegung bei der Bestimmung der "Modellgüte" ist, dass ein "besseres" Modell einen größeren Teil der Unterschiede in den Werten der zu erklärenden Variable
Wir können uns am bivariaten Beispiel der Regression der Punkte im Deutschtest auf die Schlafdauer veranschaulichen, wie diese Varianzaufteilung funktioniert:
In unserem Beispiel kommen wir entsprechend auf:
Durch Herauskürzen von
SSE steht hier für "Sum of Squares Explained", SST für "Sum of Squares Total". Achtung: teilweise wird das Kürzel SSE auch für "Sum of Squares, Errors", also die Fehlerquadrate der Residuen verwendet!
: Interpretation
Für
Häufig wird