Statistische Maßzahlen für die Streuung

Einleitung

Mit statistischen Maßzahlen für die Streuung (auch Streuungsmaße genannt) können wir Aussagen darüber treffen, wie stark die Werte einer Verteilung variieren bzw. wie weit sie von der Mitte/dem Zentrum entfernt liegen. Die gängigsten Streuungsmaße sind die Spannweite, der Interquartilsabstand, die Varianz/Standardabweichung und der Varianzkoeffizient. Welche dieser Maßzahlen wir für die Beschreibung einer bestimmten Verteilung verwenden, wird durch das Skalenniveau des Merkmals entschieden.

Mit Streuungsmaßen können wir beispielsweise die folgenden Fragen beantworten:

  • Welche Spanne an Noten wurde SchülerInnen in einem Deutschtest gegeben?

  • Wie stark variiert die Anzahl an Punkten, welche SchülerInnen für einem Mathetest erhalten haben?

Spannweite

Die Spannweite ergibt sich aus dem Abstand zwischen dem kleinsten und dem größten Wert. Notwendig ist mindestens ordinales Skalenniveau der Merkmale.

Beispiele

Perzentile und Interquartilabstand

Zur Erinnerung: Der Median beschreibt den mittleren Wert einer Variablen. Wir ordnen alle Werte der Variablen der Größe nach. Der Wert in der Mitte dieser geordneten Reihe ist der Median. Die Hälfte der Werte ist größer oder gleich dem Median. Notwendig ist mindestens ein ordinales Skalenniveau der Merkmale.

Zur Bestimmung des Medians teilen wir also eine geordnete Datenreihe in zwei gleichgroße Hälften. Analog zu diesem Vorgehen können wir eine geordnete Datenreihe in mehr als zwei Teile aufteilen. Die Punkte, an denen eine Datenreihe in vier gleichgroße Viertel geteilt wird, nennen wir Quartile. 25% der Werte sind kleiner oder gleich, 75% größer oder gleich dem ersten Quartil. Das zweite Quartil entspricht dem Median. Der Abstand zwischen dem ersten und dem dritten Quartil ist definiert als Interquartilsabstand.

Voraussetzung ist, dass die Ausprägungen eines Merkmals in eine Rangfolge gebracht werden können. Daher ist mindestens ordinales Skalenniveau notwendig.

Beispiele

Berechnung des Interquartilabstands

  In diesem Abschnitt wird die Formel zur Berechnung des Interquartilabstands erläutert.

Der Interquartilsabstand berechnet sich aus der Differenz des dritten und ersten Quartils:

\[ Interquartilsabstand (IQR) = Q_{0,75} - Q_{0,25} \]

Zur Berechnung der Quartile werden alle Werte eines Merkmals der Größe nach sortiert. Der Wert an der Stelle \( n \cdot 0,25 \) entspricht dem ersten Quartil, der Wert an der Stelle \( n \cdot 0,75 \) ergibt das dritte Quartil.

Beispielsweise besteht die Reihe MM(1;1;1;2;2;2;3;3;3;3;3;3;5;5MM) aus MM(n=14MM) Fällen. Zur Bestimmung des ersten Quartils berechnen wir MM(14 \cdot 0,25 = 3,5MM). Wir runden auf und lesen den Wert des ersten Quartils an der vierten Stelle ab. Folglich ist MM(Q{0,25} = 2MM). Analog berechnen wir das dritte Quartil: Die Berechnung von MM(14 \cdot 0,75 = 10,5MM) ergibt, dass wir das dritte Quartil an der elften Stelle ablesen. MM(Q{0,75}MM) ist MM(3MM). Daraus berechnen wir einen Interquartilsabstand von MM(IQR = Q{0,75} - Q{0,25} = 3 - 2 = 1MM).

Quartile aus einer Häufigkeitstabelle ablesen

Falls eine Häufigkeitstabelle mit relativen und kumulierten Häufigkeiten vorliegt, können die Quartile einfach aus der Tabelle abgelesen werden. Bei der ersten Ausprägung, bei der die kumulierten Häufigkeiten einen Wert von MM(0,25MM) erreichen bzw. übersteigen, handelt es sich um das erste Quartil.

Varianz und Standardabweichung

Die Standardabweichung beschreibt die durchschnittliche1 Abweichung der Fälle vom arithmetischen Mittel einer Variablen (1damit ist kein arithmetischer Durchschnitt gemeint). Die Varianz ergibt sich aus der quadrierten Standardabweichung. Die Einheit der Standardabweichung entspricht der Einheit der Variablen. Dadurch ist die Interpretation der Standardabweichung meist angenehmer als die der Varianz. Notwendig ist ein metrisches Skalenniveau der Merkmale.

Beispiele

Berechnung der Varianz/Standardabweichung

In diesem Abschnitt wird die Formel zur Berechnung der Varianz und der Standardabweichung erläutert.

Die Varianz ist die Summe der quadrierten Abweichungen vom arithmetischen Mittel dividiert durch die Anzahl an Fällen:

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n} \]

Die Abweichungen werden quadriert, da die Summe der (unquadrierten) Abweichungen vom arithmetischen Mittelwert 0 wäre. Da quadrierte Werte in die Berechnung eingehen, drückt die Varianz die Streuung nicht in der Einheit des Merkmals aus. Wir berechnen die Standardabweichung, indem wir die Wurzel aus der Varianz ziehen. Die Standardabweichung kann somit in der Einheit des Merkmals interpretiert werden.

\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n}} \]

[SHINY: Streuungsmaße für verschiedene Beispieldaten, die bestimmten Verteilungen entsprechen, und jeweils den Anteil des Histograms, der davon eingeschlossen ist; Bsp. Punkte Basketball für Normalverteilung, Geburtsmonat für Gleichverteilung]

Variationskoeffizient

Zusammenfassung