Zusammenhang zwischen kategorialen Variablen

Darstellung von Zusammenhängen

Zur Erinnerung: Je nach Skalenniveau der beiden Variablen lassen sich zwei Merkmale in unterschiedlicher Weise gemeinsam darstellen. Für zwei nominale oder ordinale Variablen bieten sich Kreuztabellen an.

Kreuztabellen

Hier finden Sie Informationen zu den im Artikel verwendeten Beispieldaten

Cramérs V

Wenn wir den Zusammenhang zwischen zwei nominalskalierten Variablen beschreiben wollen, können wir Cramérs \(V\) verwenden.

Eigenschaften

  • Cramérs \(V\) kann Werte zwischen \(0\) und \(1\) annehmen.
  • Ein Wert von \(0\) bedeutet, dass kein Zusammenhang vorliegt.
  • Je größer der Wert ist, desto größer ist der untersuchte Zusammenhang.

Grundidee

Wir vergleichen die beobachteten Häufigkeiten in den einzelnen Zellen der Kreuztabelle mit den Häufigkeiten, die ohne einen Zusammenhang der beiden Variablen zu Stande kommen würden. Der Wert von Cramérs \(V\) drückt den Unterschied zwischen diesen beiden Tabellen aus.

Im Gegensatz zum Korrelationskoeffizienten \(r\) untersuchen wir mit Cramérs \(V\) keinen linearen Zusammenhang. Aussagen wie "Je mehr Lernzeit SchülerInnen investieren, desto höher ist im Durchschnitt die Punktezahl" können also nicht getroffen werden - "mehr" und "höher" sind ja auch keine sinnvollen Begriffe für nominale Variablen. Dennoch kann uns interessieren, ob bestimmte Werte der einen nominalen Variable häufiger gemeinsam mit bestimmten Werten der anderen nominalen Variable auftreten.

Als Zusammenhangsmaß für nominale Variablen kann uns auch der Kontingenzkoeffizient C begegnen. Er wird ähnlich wie Cramérs V berechnen, ist jedoch unstandardisiert. Das bedeutet, dass für C kein einheitlicher Wertebereich (z.B. von 0 bis 1) existiert. Dadurch lässt sich C schlechter interpretieren als Cramérs V.

Für den Sonderfall von zwei dichotomen Variablen kann auch das Maß der Prozentsatzdifferenz verwendet werden.

Herleitung von Cramérs V

Zusammenfassung

Praktische Umsetzung mit Statistiksoftware

Hier entsteht ein Abschnitt zu Analyse von Zusammenhängen kategorialer Variablen in R.

Bei dringenden Fällen können Sie einen Termin zur Beratung vereinbaren.

Hier entsteht ein Abschnitt zu Analyse von Zusammenhängen kategorialer Variablen in Stata.

Bei dringenden Fällen können Sie einen Termin zur Beratung vereinbaren.

Beispieldaten & SPSS-Syntax herunterladen: spss_zusammenhang_kategorial.zip

Datenbeispiel

Kreuztabellen und Cramérs V

Statt durch Klicken durch das Menü können wir uns die Ergebnisse auch über die Syntax ausgeben lassen. Dazu verwenden wir den folgenden Code:

CROSSTABS 
  /TABLES=nachhilfe BY zeugnis_mathe_note 
  /FORMAT=AVALUE TABLES 
  /STATISTICS=PHI 
  /CELLS=COUNT COLUMN 
  /COUNT ROUND CELL.

Wir verwenden den Befehl CROSSTABS, um eine Kreuztabelle zu erhalten. Mit TABLES= geben wir die beiden Variablen getrennt mit einem BY an. In diesem Fall ist nachhilfe die Zeilenvariable (und steht vor dem BY) und zeugnis_mathe_note die Spaltenvariable (und steht nach dem BY). Um zusätzlich zu den Tabellen auch Zusammenhangsmaße angezeigt zu bekommen, verwenden wir den Unterbefehl STATISTICS. PHI führt neben dem Phi-Koeffizienten zu einer Ausgabe von Cramérs V. Mit CELLS=COUNT definieren wird, dass absolute Häufigkeiten in der Tabelle ausgegeben werden. CELLS= COLUMN führt zu der zusätzlichen Ausgabe von Spaltenprozenten. ROW würde entsprechend zu Zeilenprozenten führen.