Zusammenhangsmaße

Einleitung

Mit Zusammenhangsmaßen können wir den statistischen Zusammenhang zweier Merkmale beschreiben. Zwei Variablen stehen in einem Zusammenhang, wenn die Werte der einen Variablen von den Werten der anderen abhängen und/oder umgekehrt. Wir können Zusammenhänge auf unterschiedliche Weisen beschreiben. Eine Möglichkeit ist etwa eine gemeinsame grafische Darstellung der Merkmale z.B. als Punktdiagramme oder Box-Plots. Im Vergleich dazu dienen Zusammenhangsmaße der Beschreibung von Zusammenhängen als Kennzahlen. Dem Zusammenhang wird ein konkreter Wert zugeordnet, der sich leicht darstellen und interpretieren lässt. Wie bei jeder Kennzahl gehen dabei Informationen über die zu Grunde liegenden Daten verloren.

Grundsätzlich gehen wir folgendermaßen vor: Wir wählen das geeignete Zusammenhangsmaß in Abhängigkeit vom Skalenniveau (und ggf. der grafischen Darstellung). Dazu bestimmen wir zuerst das Skalenniveau beider Merkmale. Dann wählen wir das passende Zusammenhangsmaß aus. Wenn wir Zusammenhänge zwischen zwei Merkmalen mit unterschiedlichen Skalenniveaus untersuchen wollen, verwenden wir in der Regel das Maß des geringeren Skalenniveaus. Durch die Berechnung des Zusammenhangsmaßes erhalten wir einen konkreten Wert. Interpretieren können wir das Ergebnis mit Hilfe von verschiedenen Faustregeln je nach Zusammenhangsmaß.

Mit Zusammenhangsmaßen können unterschiedliche Fragen beantwortet werden, wie z.B.:

  • Besteht ein Zusammenhang zwischen der Deutschnote und der Mathenote von SchülerInnen? (Zusammenhang ja/nein)

  • Erzielen SchülerInnen, die eine hohe/niedrige Punktezahl in einem Deutschtest erreicht haben, höhere oder niedrigere Punktezahlen in einem Mathetest? (Richtung eines Zusammenhangs positiv/negativ)

  • Ist der Zusammenhang von der Mathenote und der Bewertung, wie sehr SchülerInnen das Fach Mathematik mögen, eher schwach oder stark? (Stärke eines Zusammenhangs)

  • Wie jede andere Kennzahl können wir auch Zusammenhangsmaße mit inferenzstatistischen Methoden (Link) daraufhin überprüfen, ob wir erwarten können, dass die ermittelte Beziehung auch in der Grundgesamtheit gilt. (In einer Klasse wird ein positiver Zusammenhang zwischen der Zeit, die SchülerInnen für einen Test zum Lernen aufgewandt haben, und der erzielten Punktezahl gefunden. Können wir davon ausgehen, dass dieser Zusammenhang auch in anderen Klassen besteht?)

Wir müssen beachten, dass solche Zusammenhangsmaße keine Aussagen über Kausalität zulassen, sondern lediglich die statistische Korrelation berechnen (LINK: Kausalität und Korrelation).

Darstellung von Zusammenhängen

[Wiederholung aus dem Kapitel zu Zusammenhangshypothesen: Kreuztabellen, Scatterplots und Vergleich von Gruppen mittels Lage- und Streuungsmaßen sowie Boxplots; Heranführung daran, was ein Zusammenhang zwischen Merkmalen bedeutet und wie sich intutiv Aussagen zum Zusammenhang treffen lassen; nachfolgend vorgestellete Zusammenhangsmaße bauen auf diesen Überlegungen auf und drücken den Zusammenhang in einem konkreten Wert aus.]

Zwei metrische Variablen: Korrelation

Der Korrelationskoeffizient \(r\) nach Bravais und Pearson - auch Produkt-Moment-Korrelation genannt - ist ein Maß für den linearen Zusammenhang zweier kontinuierlicher/metrischer Variablen.

Eigenschaften:

  • \(r\) kann Werte zwischen \(-1\) und \(1\) annehmen.
  • Ein Wert von \(0\) bedeutet, dass kein Zusammenhang vorliegt.
  • Negative Werte repräsentieren einen negativen Zusammenhang, positive Werte weisen dementsprechend auf einen positiven Zusammenhang hin.
  • Je weiter der Wert von \(0\) entfernt ist, desto stärker ist der Zusammenhang.
  • Der untersuchte Zusammenhang wird als ungerichtet angenommen, d.h. es wird keine Wirkrichtung zwischen den Variablen festgelegt. Wir sprechen also nicht von abhängigen und unabhängigen Variablen.

Das grobe Vorgehen ist folgendermaßen: Wir berechnen mit \(r\), ob und wie sehr überdurchschnittliche Werte auf einer Variablen mit über- oder unterdurchschnittlichen Werten auf der anderen Variablen einhergehen. Diesen Zusammenhang können wir mit \(r\) als eine konkrete Zahl ausdrücken.

Das ist genau der Grund, warum r nur für metrische Variablen verwendet werden kann. Ein "Durchschnitt" macht für niedrigere Skalenniveaus keinen Sinn.

Zur Interpretation der Stärke des Zusammenhangs gibt es verschiedene Faustregeln, z.B. nach Kühnel & Krebs (2007, S. 404f.):

Stärke des ZusammenhangsWertebereich von r
Kein Zusammenhang\(0 < |r| < 0,05\)
Geringer Zusammenhang\(0,05 < |r| < 0,2\)
Mittlerer Zusammenhang\(0,2 < |r| < 0,5\)
Hoher Zusammenhang\(0,5 < |r| < 0,7\)
Sehr hoher Zusammenhang\(|r| > 0,7\)
Falls eine Richtung festgelegt werden kann, könnte auch eine einfache lineare Regression genutzt werden, um den Zusammenhang zweier Merkmale zu bestimmen. Ein Vorteil dieses Verfahrens wäre etwa, dass wir damit Vorhersagen über die Ausprägung der abhängigen Variable in Abhängigkeit von bestimmten Werten der unabhängigen Variable treffen können.
Als Zusammenhangsmaß für metrische Variablen kann uns auch der Begriff der Kovarianz begegnen. Die Kovarianz wird zur Berechnung von r verwendet und ist unstandardisiert. Das bedeutet, dass die Größe der Kovarianz nicht nur von dem linearen Zusammenhang sondern auch von den Einheiten der Variablen abhängig ist. Im Vergleich zur Kovarianz können wir mit dem Korrelationskoeffizienten r also die Stärke eines Zusammenhangs besser beurteilen und verschiedene Zusammenhangshypothesen besser vergleichen.

Zwei nominale Variablen: Cramérs V

Wenn wir den Zusammenhang zwischen zwei nominalskalierten Variablen beschreiben wollen, können wir Cramérs \(V\) verwenden.

Eigenschaften:

  • Cramérs \(V\) kann Werte zwischen \(0\) und \(1\) annehmen.
  • Ein Wert von \(0\) bedeutet, dass kein Zusammenhang vorliegt.
  • Je größer der Wert ist, desto größer ist der untersuchte Zusammenhang.

Das grobe Vorgehen ist folgendermaßen: Wir vergleichen die beobachteten Häufigkeiten in den einzelnen Zellen der Kreuztabelle mit den Häufigkeiten, die ohne einen Zusammenhang der beiden Variablen zu Stande kommen würden. Der Wert von Cramérs \(V\) drückt den Unterschied zwischen diesen beiden Tabellen aus.

Im Gegensatz zum zuvor beschriebenen Korrelationskoeffizienten \(r\) untersuchen wir mit Cramérs \(V\) keinen linearen Zusammenhang. Aussagen wie "Je mehr Lernzeit SchülerInnen investieren, desto höher ist im Durchschnitt die Punktezahl" können also nicht getroffen werden - "mehr" und "höher" sind ja auch keine sinnvollen Begriffe für nominale Variablen. Dennoch kann uns interessieren, ob bestimmte Werte der einen nominalen Variable häufiger gemeinsam mit bestimmten Werten der anderen nominalen Variable auftreten.

Als Zusammenhangsmaß für nominale Variablen kann uns auch der Kontingenzkoeffizient C begegnen. Er wird ähnlich wie Cramérs V berechnen, ist jedoch unstandardisiert. Das bedeutet, dass für C kein einheitlicher Wertebereich (z.B. von 0 bis 1) existiert. Dadurch lässt sich C schlechter interpretieren als Cramérs V. Für den Sonderfall von zwei dichotomen Variablen kann auch das Maß der Prozentsatzdifferenz verwendet werden.

Zwei ordinale Variablen: Rangkorrelation nach Spearman

Das zuvor beschriebene Maß Cramérs \(V\) können wir auch für die Beschreibung des Zusammenhangs zweier ordinalskalierter Variablen verwenden. Allerdings wird dabei nicht berücksichtigt, dass die Ausprägungen ordinaler Merkmale eine Rangfolge besitzen. Daher gehen bei der Verwendung von Cramérs \(V\) für ordinalskalierte Variablen Informationen verloren. Das Maß der Rangkorrelation \(\rho\) (rho) nach Spearman berücksichtigt hingegen, dass die Ausprägungen der Merkmale eine Rangfolge besitzen.

Eigenschaften:

  • \(\rho\) kann Werte zwischen \(-1\) und \(1\) annehmen.
  • Ein Wert von \(0\) bedeutet, dass kein Zusammenhang vorliegt.
  • Je weiter der Wert von \(0\) entfernt ist, desto größer ist der Zusammenhang.
  • Negative Werte repräsentieren einen negativen Zusammenhang, positive Werte weisen dementsprechend auf einen positiven Zusammenhang hin.

Das grobe Vorgehen ist folgendermaßen: Den beobachteten Werten der Merkmale werden Ränge zugeordnet. Größere Werte erhalten einen höheren Rang als kleinere Werte. Mit \(\rho\) vergleichen wir die Ränge beider Merkmale und berechnen daraus einen Wert, der den Zusammenhang widerspiegelt.

Als Zusammenhangsmaß für ordinale Variablen kann uns auch Kendalls Tau begegnen. Wie bei Spearmans Rho werden die Ränge der beobachteten Werte genutzt, die Art der Berechnung ist jedoch unterschiedlich.

Eine nominale und eine metrische Variable: Eta-Quadrat

Grundsätzlich verwenden wir bei zwei Variablen mit unterschiedlichem Skalenniveau das Zusammenhangsmaß des geringeren Skalenniveaus. Dabei bleiben Informationen der Variable mit höherem Skalenniveau ungenutzt. Uns stehen auch Zusammenhangsmaße zur Verfügung, die wir bei einer bestimmten Kombination von Variablen nutzen können. Möchten wir den Zusammenhang zwischen einem metrischen abhängigen und einem nominalen unabhängigen Merkmal ermitteln, können wir dafür \(\eta^2\) (Eta-Quadrat) verwenden.

Eigenschaften:

  • Im Unterschied zu den bisher betrachteten Zusammenhangsmaßen nehmen wir an, dass eine Wirkrichtung zwischen den beiden Variablen besteht: Die nominale Variable beeinflusst die metrische.
  • \(\eta^2\) kann Werte zwischen \(0\) und \(1\) annehmen.
  • \(0\) bedeutet, dass kein Zusammenhang vorliegt.
  • Je größer der Wert, desto größer ist der Zusammenhang.

Wir gehen folgendermaßen vor: Wir betrachten die Beobachtungen der metrischen abhängigen Variable getrennt für die Ausprägungen der nominalen Variable, bilden also je eine Gruppe pro Ausprägung der nominalen Variable. Dann vergleichen wir, ob die Beobachtungen den anderen Beobachtungen in ihrer Gruppe ähnlicher sind als den Beobachtungen in den anderen Gruppen. Diesen Vergleich drückt Eta-Quadrat mit einem Wert aus.

Zusammenfassung

In der nachfolgenden Übersicht sind die behandelten Maße zusammengefasst.

ZusammenhangsmaßSkalenniveaus der beiden VariablenWertebereichAussagekraftBeispielmerkmale
Korrelationskoeffizient \(r\)Zwei kontinuierliche, d.h. metrische Variablen\(-1 < r < 1\)Stärke und Richtung eines linearen ZusammenhangsPunktezahl Deutschtest; Schlafzeit in der Nacht davor
Cramérs \(V\)Mindestens zwei nominale Variablen\(0 < V < 1\)Stärke eines ZusammenhangsIn der Freizeit ausgeübte Sportart; Sportnote
Spearmans Rangkorrelation \(\rho\) (rho)Mindestens zwei ordinale Variablen\(-1 < \rho < 1\)Stärke und Richtung eines linearen ZusammenhangsDeutschnote; Mathenote
\(\eta^2\) (Eta-Quadrat)Eine metrische abhängige und eine nominale unabhängige Variable\(0 \leq \eta^2 \leq 1\)Stärke des ZusammenhangsPunktezahl Mathetest; Ist Mathematik Lieblingsfach (ja/nein)