Cramérs \(V\) basiert auf der Kennzahl \(\chi^2\) (sprich. 'Chi-Quadrat') und damit auf der Idee, die beobachteten Häufigkeiten mit den Häufigkeiten zu vergleichen, die wir bei stochastischer Unabhängigkeit vermuten.
\(\chi^2\) berechnen wir mit der Formel $$\chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - \hat{n}_{ij})^2}{ \hat{n}_{ij} }$$ Die Formel wird im Folgenden schrittweise erläutert.
Die Tabelle zeigt die Beobachtungen der Merkmale “In der Freizeit ausgeübte Sportart” und “Sporttest bestanden” in einer Kreuztabelle (fiktive Werte).
Wie würde die Tabelle bei stochastischer Unabhängigkeit zwischen den Variablen aussehen? Die Variablen sind unabhängig voneinander, wenn die Ausprägungen der einen Variable nicht von den Ausprägungen der anderen Variable abhängen. Wir nehmen an zu wissen, dass knapp 80 Prozent der Personen den Sporttest bestanden haben und gut 20 Prozent nicht bestanden haben. Gehen wir davon aus, dass die Merkmale unabhängig voneinander sind, erwarten wir auch für die Gruppe der 57 Fußballerinnen und Fußballer, dass knapp 80 Prozent bestanden und gut 20 Prozent nicht bestanden haben. Bei den 57 Personen, die in ihrer Freizeit Fußball spielen, erwarten wir also, dass etwa 45 den Sporttest bestanden und 12 nicht bestanden haben. Ebenso können wir uns folgendes überlegen: Wir wissen, dass 16 Prozent der Personen in ihrer Freizeit keine Sportart ausüben. Gehen wir davon aus, dass die Merkmale unabhängig voneinander sind, so erwarten wir, dass auch in der Gruppe der Personen, die den Sporttest bestanden haben, 16 Prozent keine Sportart ausüben. Von den 157 Personen, die bestanden haben, erwarten wir also, dass etwa 25 in ihrer Freizeit keine Sportart ausüben.
Um die einzelnen Häufigkeiten bei statistischer Unabhängigkeit zu berechnen, multiplizieren wir jeweils die Randsummen und dividieren den Wert durch die Gesamtsumme:
$$ \text{Erwarteter Wert bei statistischer Unabhängigkeit} = \hat{n}_{ij} = \frac{n_{i \cdot} \cdot n_{\cdot j}}{n} $$
Für die Zelle in der ersten Zeile und dritten Spalte berechnen wir z.B. folgendes: \(\hat{n}_{13} = \frac{n_{1 \cdot} \cdot n_{\cdot 3}}{n} = \frac{157 \cdot 17}{200} = 13,345\) (in der Tabelle ).
Die berechneten Werte, die wir bei statistische Unabhängigkeit erwarten, unterscheiden sich von den tatsächlich beobachteten Werten. Wie groß dieser Unterschied ist, wird mit der Maßzahl \(\chi^2\) quantifiziert.
Um \(\chi^2\) zu berechnen, bilden wir die Differenz zwischen dem erwarteten und dem tatsächlichen Wert, quadrieren das Ergebnis und dividieren dann durch den zu erwartenden Wert: $$\frac{(n_{ij} - \hat{n}_{ij})^2}{ \hat{n}_{ij} } = \frac{(n_{ij} - \frac{n_{i \cdot} \cdot n_{\cdot j}}{n})^2}{ \frac{n_{i \cdot} \cdot n_{\cdot j}}{n} } $$
Für die Zelle in der ersten Zeile und dritten Spalte ergibt sich \(\frac{(n_{13} - \hat{n}_{13})^2}{ \hat{n}_{13} } = \frac{(14 - 13,345)^2}{ 13,345 } = 0,032\)
Aufsummiert erhalten wir aus den berechneten Werten \(\chi^2\): $$\chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - \hat{n}_{ij})^2}{ \hat{n}_{ij} } = 12,94 $$
\(\chi^2\) ist abhängig u.A. von der Anzahl an Beobachtungen. Verdoppeln wir beispielsweise die Häufigkeiten in jeder Zelle, berechnen wir daraus auch ein doppelt so großes \(\chi^2\). Daher können wir aus \(\chi^2\) nicht direkt das Ausmaß des Zusammenhangs ablesen. Im Ergebnis erhalten wir eine auf den Bereich zwischen 0 und 1 normierte Maßzahl, die wir unabhängig von der Anzahl an Fällen interpretieren können. Dazu wird die Gesamtzahl der Fälle berücksichtigt sowie die Anzahl an Zeilen und Spalten der Kreuztabelle: $$ V = \sqrt{\frac{\chi^2}{n \cdot (min(\text{Anzahl Spalten}, \text{Anzahl Zeilen})-1)} } = \sqrt{\frac{12,94}{200 \cdot (min(6, 2)-1)} } = 0,25 $$