statistische Maßzahlen für die Streuung

Einleitung

Mit statistischen Maßzahlen für die Streuung (auch Streuungsmaße genannt) können wir Aussagen darüber treffen, wie stark die Werte einer Verteilung variieren bzw. wie weit sie von der Mitte/dem Zentrum entfernt liegen. Die gängigsten Streuungsmaße sind die Spannweite, der Interquartilsabstand, die Varianz/Standardabweichung und der Varianzkoeffizient. Welche dieser Maßzahlen wir für die Beschreibung einer bestimmten Verteilung verwenden, wird durch das Skalenniveau des Merkmals entschieden.

Mit Streuungsmaßen können wir beispielsweise die folgenden Fragen beantworten:

  • Welche Spanne an Noten wurde SchülerInnen in einem Deutschtest gegeben?

  • Wie stark variiert die Anzahl an Punkten, welche SchülerInnen für einem Mathetest erhalten haben?

Spannweite

Die Spannweite ergibt sich aus dem Abstand zwischen dem kleinsten und dem größten Wert. Notwendig ist mindestens ordinales Skalenniveau der Merkmale.

Perzentile und Interquartilabstand

Zur Erinnerung: Der Median beschreibt den mittleren Wert einer Variablen. Wir ordnen alle Werte der Variablen der Größe nach. Der Wert in der Mitte dieser geordneten Reihe ist der Median. Die Hälfte der Werte ist größer oder gleich dem Median. Notwendig ist mindestens ein ordinales Skalenniveau der Merkmale.

Zur Bestimmung des Medians teilen wir also eine geordnete Datenreihe in zwei gleichgroße Hälften. Analog zu diesem Vorgehen können wir eine geordnete Datenreihe in mehr als zwei Teile aufteilen. Die Punkte, an denen eine Datenreihe in vier gleichgroße Viertel geteilt wird, nennen wir Quartile. 25% der Werte sind kleiner oder gleich, 75% größer oder gleich dem ersten Quartil. Das zweite Quartil entspricht dem Median. Der Abstand zwischen dem ersten und dem dritten Quartil ist definiert als Interquartilsabstand.

Voraussetzung ist, dass die Ausprägungen eines Merkmals in eine Rangfolge gebracht werden können. Daher ist mindestens ordinales Skalenniveau notwendig.

Beispiele

[SHINY zur Veranschaulichung von Quartilen und dem Interquatilsabstand]

[H5P "Bsp Interquartilsabstand" (noch nicht erstellt)]

Varianz und Standardabweichung

Die Standardabweichung beschreibt die durchschnittliche1 Abweichung der Fälle vom arithmetischen Mittel einer Variablen (1damit ist kein arithmetischer Durchschnitt gemeint). Die Varianz ergibt sich aus der quadrierten Standardabweichung. Die Einheit der Standardabweichung entspricht der Einheit der Variablen. Dadurch ist die Interpretation der Standardabweichung meist angenehmer als die der Varianz. Notwendig ist ein metrisches Skalenniveau der Merkmale.

Berechnung der Varianz/Standardabweichung

In diesem Abschnitt wird die Formel zur Berechnung der Varianz und der Standardabweichung erläutert.

Die Varianz ist die Summe der quadrierten Abweichungen vom arithmetischen Mittel dividiert durch die Anzahl an Fällen:

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n} \]

Die Abweichungen werden quadriert, da die Summe der (unquadrierten) Abweichungen vom arithmetischen Mittelwert 0 wäre. Da quadrierte Werte in die Berechnung eingehen, drückt die Varianz die Streuung nicht in der Einheit des Merkmals aus. Wir berechnen die Standardabweichung, indem wir die Wurzel aus der Varianz ziehen. Die Standardabweichung kann somit in der Einheit des Merkmals interpretiert werden.

\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n}} \]

[SHINY: Streuungsmaße für verschiedene Beispieldaten, die bestimmten Verteilungen entsprechen, und jeweils den Anteil des Histograms, der davon eingeschlossen ist; Bsp. Punkte Basketball für Normalverteilung, Geburtsmonat für Gleichverteilung]

Variationskoeffizient