Statistische Maßzahlen für die Streuung

Mit statistischen Maßzahlen für die Streuung beschreiben wir das Ausmaß der Unterschiedlichkeit der Ausprägungen einer Variable. Gibt es viel Variation zwischen den Werten, oder nehmen die beobachteten Fälle nur wenige unterschiedliche oder nur sehr ähnliche Ausprägungen an?

Gemeinsam mit Informationen über die Lage der Verteilung liefern Streuungsmaße oft bereits einen guten Eindruck davon, welche Ausprägungen für eine Variable beobachtet wurden.

Die gängigsten Streuungsmaße sind die Spannweite, der Interquartilsabstand, die Varianz/Standardabweichung und der Variationskoeffizient.

Bei der Auswahl und Interpretation einer geeigneten Maßzahl ist zu berücksichtigen, ob die Maßzahl zu dem betrachteten Merkmal und der Fragestellung passt, da die Maßzahlen jeweils bestimmte Aspekte der Unterschiedlichkeit der Ausprägungen hervorheben. Daneben werden wie bei Lagemaßen bestimmte Skalenniveaus vorausgesetzt.

Hier finden Sie Informationen zu den im Artikel verwendeten Beispieldaten

Spannweite

Die Spannweite ist der Abstand zwischen dem kleinsten und dem größten Wert. Notwendig ist mindestens ordinales Skalenniveau der Merkmale.

Die Beispiele zeigen, dass die Spannweite empfindlich gegenüber Ausreißern ist. Sehr große oder sehr kleine Werte können die Spannweite beeinflussen, während alle Werte dazwischen die Spannweite nicht verändern.

Interquartilabstand

Zur Erinnerung: Der Median beschreibt den mittleren Wert einer Variablen. Wir ordnen alle Werte der Variablen der Größe nach. Der Wert in der Mitte dieser geordneten Reihe ist der Median. Die Hälfte der Werte ist größer oder gleich dem Median.

Zur Bestimmung des Medians teilen wir also eine geordnete Datenreihe in zwei gleichgroße Hälften, wobei sich "gleich groß" hier auf die Anzahl der Fälle, nicht auf deren Messwerte bezieht. Analog zu diesem Vorgehen können wir eine geordnete Datenreihe auch in mehr als zwei Teile aufteilen.

Die Werte, an denen eine Datenreihe in vier gleichgroße Viertel geteilt wird, nennen wir Quartile. 25% der Werte sind kleiner oder gleich, 75% größer oder gleich dem ersten Quartil. Das zweite Quartil entspricht dem Median. Das dritte Quartil trennt die unteren 25% von den ober 75% einer Verteilung.

Der Interquartilsabstand ist definiert als Abstand zwischen dem ersten und dem dritten Quartil. Der Interquartilabstand ist also ganz ähnlich zu interpretieren wie die Spannweite - hier schränken wir uns lediglich auf die Spanne ein, in der die mittleren 50% unserer Fälle auftreten. Das ist informativ, weil hier die "typischen" Fälle liegen. Ein Vorteil ist, dass Ausreißer-Werte den IQR kaum beeinflussen.

Voraussetzung ist (wie bei der Berechnung des Medians), dass die Ausprägungen eines Merkmals in eine Rangfolge gebracht werden können. Daher ist mindestens ordinales Skalenniveau notwendig.

Berechnung des Interquartilabstands

In diesem Abschnitt wird die Formel zur Berechnung des Interquartilabstands erläutert.

Quartile aus einer Häufigkeitstabelle ablesen

Falls eine Häufigkeitstabelle mit relativen und kumulierten Häufigkeiten vorliegt, können die Quartile einfach aus der Tabelle abgelesen werden. Bei der ersten Ausprägung, bei der die kumulierten Häufigkeiten einen Wert von \( 0,25 \) erreichen bzw. übersteigen, handelt es sich um das erste Quartil, die Ausprägung mit der \( 0,75 \) ist der Wert des dritten Quartils.

Quartile rechnerisch bestimmen

Der Interquartilsabstand berechnet sich aus der Differenz des dritten und ersten Quartils:

\[ Interquartilsabstand (IQR) = Q_{0,75} - Q_{0,25} \]

Zur Berechnung der Quartile werden alle Werte eines Merkmals der Größe nach sortiert. Der Wert an der Stelle \( n \cdot 0,25 \) entspricht dem ersten Quartil, der Wert an der Stelle \( n \cdot 0,75 \) ergibt das dritte Quartil. Wenn \( n \cdot 0,25 \) oder \( n \cdot 0,75 \) keinen ganzzahligen Wert ergeben, ist an der Stelle der nächstgrößeren ganze Zahl abzulesen.

Formel für \( n \cdot 0,25 \) ganzzahlig:

\[ Q_{0,25} = \tilde x_{0,25} = \frac{x_{n \cdot 0,25} + x_{n \cdot 0,25+1}}{2} \]

Formel für \( n \cdot 0,25 \) nicht ganzzahlig:

\[ Q_{0,25} = \tilde x_{0,25} = x_{ \left \lceil{n \cdot 0,25}\right \rceil } \]

\( \left \lceil{n \cdot 0,25}\right \rceil \) bezeichnet die nächstgröße ganze reelle Zahl - \( n \cdot 0,25 \) muss also einfach aufgerundet werden.

Die Formeln können wir analog für das dritte Quartil verwenden, indem wir \( 0,25 \) durch \( 0,75 \) ersetzen.

Ein kleines Beispiel: Nehmen wir an, wir haben für \( n=14 \) Fälle die Werte \( 1;1;1;2;2;2;3;3;3;3;3;3;5;5 \) beobachtet. Zur Bestimmung des ersten Quartils berechnen wir \( 14 \cdot 0,25 = 3,5 \). Wir runden auf und lesen den Wert des ersten Quartils an der vierten Stelle ab. Folglich ist \( Q_{0,25} = 2 \).

Analog berechnen wir das dritte Quartil: Die Berechnung von \( 14 \cdot 0,75 = 10,5 \) ergibt, dass wir das dritte Quartil an der elften Stelle ablesen. \( Q_{0,75} = 3 \). Daraus berechnen wir einen Interquartilsabstand von \( IQR = Q_{0,75} - Q_{0,25} = 3 - 2 = 1 \).

Die in Idee von Quartilen, eine Verteilung in (vier) gleichgroße Teile zu unterteilen lässt sich verallgemeinern: Quantile unterteilen Verteilungen in beliebig viele, gleichgroße Abschnitte.

Varianz und Standardabweichung

Die Standardabweichung beschreibt die durchschnittliche Abweichung der Fälle vom arithmetischen Mittel einer Variablen (damit ist kein arithmetischer Durchschnitt gemeint). Die Varianz ist die quadrierte Standardabweichung. Die Einheit der Standardabweichung entspricht der Einheit der Variablen. Dadurch ist die Interpretation der Standardabweichung in der Regel anschaulicher als die der Varianz. Notwendig ist ein metrisches Skalenniveau der Merkmale, da Abstände vom arithmetischen Mittel zu Grunde gelegt werden muss ein metrisches Skalenniveau vorliegen.

Berechnung der Varianz/Standardabweichung

In diesem Abschnitt wird die Formel zur Berechnung der Varianz und der Standardabweichung erläutert.

Die Varianz ist die Summe der quadrierten Abweichungen vom arithmetischen Mittel dividiert durch die Anzahl an Fällen:

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n} \]

Die Abweichungen werden quadriert, da die Summe der (unquadrierten) Abweichungen vom arithmetischen Mittelwert 0 wäre. Da quadrierte Werte in die Berechnung eingehen, drückt die Varianz die Streuung nicht in der Einheit des Merkmals aus. Wir berechnen die Standardabweichung, indem wir die Wurzel aus der Varianz ziehen. Die Standardabweichung kann somit in der Einheit des Merkmals interpretiert werden.

\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n}} \]

Zum Ausprobieren: Standardabweichung bei unterschiedlichen Verteilungen

Wir haben das Quadrieren der Abstände vom arithmetischen Mittel oben damit begründet, dass die Summe der Abweichungen sonst Null ergibt. Tatsächlich könnte man dieses Problem auch anders lösen, z.B. könnten wir mit den einfachen betragsmäßigen Differenzen rechnen (\( |-x|=x \)). Warum hat sich Varianz-Formel in dieser Form durchgesetzt?

Ein wichtiger Punkt ist hier, dass die quadrierten Abstände zum arithmetischen Mittel minimal sind - Varianz und arithmetisches Mittel hängen auf der Definitionsebene also eng zusammen. Vor allem aber spielen die der Varianzberechnung zu Grunde liegenden "Abweichungsquadrate" eine ebenso grundlegende Rolle in vielen weiterführenden statistischen Verfahren, allen voran in der häufig genutzten einfachen linearen Regression. Die Varianz "passt" also einfach gut zu vielen weiteren Verfahren und wurde und wird daher häufig verwendet.

Variationskoeffizient

In diesem Abschnitt wird erklärt, warum Standardabweichung und Varianz nicht immer optimal sind, um das Ausmaß der Streuung einer Variable einzuschätzen, und warum der Variationskoeffizient in manchen Fällen die bessere Maßzahl sein kann.

Der Variationskoeffizient beschreibt das Ausmaß der Variation der Werte in Abhängigkeit vom arithmetischen Mittel der Variable. Er wird berechnet als

\[ V = \frac{s}{\bar{x}} \]

Werte größer 1 bedeuten, dass die Standardabweichung größer ist als der arithmetische Mittelwert - die Einheit des Variationskoeffizienten ist also "ein Mittelwert".

Warum könnte so eine Maßzahl sinnvoll sein? Betrachten wir einige Verteilungen aus dem Sport-Teil unseres Schüler*innen-Datensatzes:

Die hier gezeigte Logik ist nicht auf Sportergebnisse beschränkt, sondern ziemlich allgemeingültig:

Merkmale mit größerem arithmetischen Mittel weisen in der Regel auch eine größere Standardabweichung auf.

  • Butterpreise werden sich nur um wenige Cent unterscheiden, Autopreise um hunderte oder tausende Euro.
  • Die Körpergröße von Elefanten kann leicht um 30cm schwanken. Abweichungen der Körpergröße einer Mäusepopulation in diesem Ausmaß würde uns vermutlich erschrecken.

Das Herausrechnen des Mittelwerts hat zusätzlich den Vorteil, dass der Variationskoeffizient eine dimensionslose Größe ist. Er kann daher auch herangezogen werden, um Variablen mit unterschiedlichen Maßeinheiten zu vergleichen:

Zusammenfassung