Statistische Maßzahlen für die Streuung

Mit statistischen Maßzahlen für die Streuung beschreiben wir das Ausmaß der Unterschiedlichkeit der Ausprägungen einer Variable. Gibt es viel Variation zwischen den Werten, oder nehmen die beobachteten Fälle nur wenige unterschiedliche oder nur sehr ähnliche Ausprägungen an?

Gemeinsam mit Informationen über die Lage der Verteilung liefern Streuungsmaße oft bereits einen guten Eindruck davon, welche Ausprägungen für eine Variable beobachtet wurden.

Die gängigsten Streuungsmaße sind die Spannweite, der Interquartilsabstand, die Varianz/Standardabweichung und der Variationskoeffizient.

Bei der Auswahl und Interpretation einer geeigneten Maßzahl ist zu berücksichtigen, ob die Maßzahl zu dem betrachteten Merkmal und der Fragestellung passt, da die Maßzahlen jeweils bestimmte Aspekte der Unterschiedlichkeit der Ausprägungen hervorheben. Daneben werden wie bei Lagemaßen bestimmte Skalenniveaus vorausgesetzt.

Hier finden Sie Informationen zu den im Artikel verwendeten Beispieldaten

Spannweite

Die Spannweite ist der Abstand zwischen dem kleinsten und dem größten Wert. Notwendig ist mindestens ordinales Skalenniveau der Merkmale.

Die Beispiele zeigen, dass die Spannweite empfindlich gegenüber Ausreißern ist. Sehr große oder sehr kleine Werte können die Spannweite beeinflussen, während alle Werte dazwischen die Spannweite nicht verändern.

Interquartilabstand

Zur Erinnerung: Der Median beschreibt den mittleren Wert einer Variablen. Wir ordnen alle Werte der Variablen der Größe nach. Der Wert in der Mitte dieser geordneten Reihe ist der Median. Die Hälfte der Werte ist größer oder gleich dem Median.

Zur Bestimmung des Medians teilen wir also eine geordnete Datenreihe in zwei gleichgroße Hälften, wobei sich "gleich groß" hier auf die Anzahl der Fälle, nicht auf deren Messwerte bezieht. Analog zu diesem Vorgehen können wir eine geordnete Datenreihe auch in mehr als zwei Teile aufteilen.

Die Werte, an denen eine Datenreihe in vier gleichgroße Viertel geteilt wird, nennen wir Quartile. 25% der Werte sind kleiner oder gleich, 75% größer oder gleich dem ersten Quartil. Das zweite Quartil entspricht dem Median. Das dritte Quartil trennt die unteren 25% von den ober 75% einer Verteilung.

Der Interquartilsabstand ist definiert als Abstand zwischen dem ersten und dem dritten Quartil. Der Interquartilabstand ist also ganz ähnlich zu interpretieren wie die Spannweite - hier schränken wir uns lediglich auf die Spanne ein, in der die mittleren 50% unserer Fälle auftreten. Das ist informativ, weil hier die "typischen" Fälle liegen. Ein Vorteil ist, dass Ausreißer-Werte den IQR kaum beeinflussen.

Voraussetzung ist (wie bei der Berechnung des Medians), dass die Ausprägungen eines Merkmals in eine Rangfolge gebracht werden können. Daher ist mindestens ordinales Skalenniveau notwendig.

Berechnung des Interquartilabstands

In diesem Abschnitt wird die Formel zur Berechnung des Interquartilabstands erläutert.

Quartile aus einer Häufigkeitstabelle ablesen

Falls eine Häufigkeitstabelle mit relativen und kumulierten Häufigkeiten vorliegt, können die Quartile einfach aus der Tabelle abgelesen werden. Bei der ersten Ausprägung, bei der die kumulierten Häufigkeiten einen Wert von \( 0,25 \) erreichen bzw. übersteigen, handelt es sich um das erste Quartil, die Ausprägung mit der \( 0,75 \) ist der Wert des dritten Quartils.

Quartile rechnerisch bestimmen

Der Interquartilsabstand berechnet sich aus der Differenz des dritten und ersten Quartils:

\[ Interquartilsabstand (IQR) = Q_{0,75} - Q_{0,25} \]

Zur Berechnung der Quartile werden alle Werte eines Merkmals der Größe nach sortiert. Der Wert an der Stelle \( n \cdot 0,25 \) entspricht dem ersten Quartil, der Wert an der Stelle \( n \cdot 0,75 \) ergibt das dritte Quartil. Wenn \( n \cdot 0,25 \) oder \( n \cdot 0,75 \) keinen ganzzahligen Wert ergeben, ist an der Stelle der nächstgrößeren ganze Zahl abzulesen.

Formel für \( n \cdot 0,25 \) ganzzahlig:

\[ Q_{0,25} = \tilde x_{0,25} = \frac{x_{n \cdot 0,25} + x_{n \cdot 0,25+1}}{2} \]

Formel für \( n \cdot 0,25 \) nicht ganzzahlig:

\[ Q_{0,25} = \tilde x_{0,25} = x_{ \left \lceil{n \cdot 0,25}\right \rceil } \]

\( \left \lceil{n \cdot 0,25}\right \rceil \) bezeichnet die nächstgröße ganze reelle Zahl - \( n \cdot 0,25 \) muss also einfach aufgerundet werden.

Die Formeln können wir analog für das dritte Quartil verwenden, indem wir \( 0,25 \) durch \( 0,75 \) ersetzen.

Ein kleines Beispiel: Nehmen wir an, wir haben für \( n=14 \) Fälle die Werte \( 1;1;1;2;2;2;3;3;3;3;3;3;5;5 \) beobachtet. Zur Bestimmung des ersten Quartils berechnen wir \( 14 \cdot 0,25 = 3,5 \). Wir runden auf und lesen den Wert des ersten Quartils an der vierten Stelle ab. Folglich ist \( Q_{0,25} = 2 \).

Analog berechnen wir das dritte Quartil: Die Berechnung von \( 14 \cdot 0,75 = 10,5 \) ergibt, dass wir das dritte Quartil an der elften Stelle ablesen. \( Q_{0,75} = 3 \). Daraus berechnen wir einen Interquartilsabstand von \( IQR = Q_{0,75} - Q_{0,25} = 3 - 2 = 1 \).

Die in Idee von Quartilen, eine Verteilung in (vier) gleichgroße Teile zu unterteilen lässt sich verallgemeinern: Quantile unterteilen Verteilungen in beliebig viele, gleichgroße Abschnitte.

Varianz und Standardabweichung

Die Standardabweichung beschreibt die durchschnittliche Abweichung der Fälle vom arithmetischen Mittel einer Variablen (damit ist kein arithmetischer Durchschnitt gemeint). Die Varianz ist die quadrierte Standardabweichung. Die Einheit der Standardabweichung entspricht der Einheit der Variablen. Dadurch ist die Interpretation der Standardabweichung in der Regel anschaulicher als die der Varianz. Notwendig ist ein metrisches Skalenniveau der Merkmale, da Abstände vom arithmetischen Mittel zu Grunde gelegt werden muss ein metrisches Skalenniveau vorliegen.

Berechnung der Varianz/Standardabweichung

In diesem Abschnitt wird die Formel zur Berechnung der Varianz und der Standardabweichung erläutert.

Die Varianz ist die Summe der quadrierten Abweichungen vom arithmetischen Mittel dividiert durch die Anzahl an Fällen:

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n} \]

Die Abweichungen werden quadriert, da die Summe der (unquadrierten) Abweichungen vom arithmetischen Mittelwert 0 wäre. Da quadrierte Werte in die Berechnung eingehen, drückt die Varianz die Streuung nicht in der Einheit des Merkmals aus. Wir berechnen die Standardabweichung, indem wir die Wurzel aus der Varianz ziehen. Die Standardabweichung kann somit in der Einheit des Merkmals interpretiert werden.

\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x}) ^2}{n}} \]

Zum Ausprobieren: Standardabweichung bei unterschiedlichen Verteilungen

Wir haben das Quadrieren der Abstände vom arithmetischen Mittel oben damit begründet, dass die Summe der Abweichungen sonst Null ergibt. Tatsächlich könnte man dieses Problem auch anders lösen, z.B. könnten wir mit den einfachen betragsmäßigen Differenzen rechnen (\( |-x|=x \)). Warum hat sich Varianz-Formel in dieser Form durchgesetzt?

Ein wichtiger Punkt ist hier, dass die quadrierten Abstände zum arithmetischen Mittel minimal sind - Varianz und arithmetisches Mittel hängen auf der Definitionsebene also eng zusammen. Vor allem aber spielen die der Varianzberechnung zu Grunde liegenden "Abweichungsquadrate" eine ebenso grundlegende Rolle in vielen weiterführenden statistischen Verfahren, allen voran in der häufig genutzten einfachen linearen Regression. Die Varianz "passt" also einfach gut zu vielen weiteren Verfahren und wurde und wird daher häufig verwendet.

Variationskoeffizient

In diesem Abschnitt wird erklärt, warum Standardabweichung und Varianz nicht immer optimal sind, um das Ausmaß der Streuung einer Variable einzuschätzen, und warum der Variationskoeffizient in manchen Fällen die bessere Maßzahl sein kann.

Der Variationskoeffizient beschreibt das Ausmaß der Variation der Werte in Abhängigkeit vom arithmetischen Mittel der Variable. Er wird berechnet als

\[ V = \frac{s}{\bar{x}} \]

Werte größer 1 bedeuten, dass die Standardabweichung größer ist als der arithmetische Mittelwert - die Einheit des Variationskoeffizienten ist also "ein Mittelwert".

Warum könnte so eine Maßzahl sinnvoll sein? Betrachten wir einige Verteilungen aus dem Sport-Teil unseres Schüler*innen-Datensatzes:

Die hier gezeigte Logik ist nicht auf Sportergebnisse beschränkt, sondern ziemlich allgemeingültig:

Merkmale mit größerem arithmetischen Mittel weisen in der Regel auch eine größere Standardabweichung auf.

  • Butterpreise werden sich nur um wenige Cent unterscheiden, Autopreise um hunderte oder tausende Euro.
  • Die Körpergröße von Elefanten kann leicht um 30cm schwanken. Abweichungen der Körpergröße einer Mäusepopulation in diesem Ausmaß würde uns vermutlich erschrecken.

Das Herausrechnen des Mittelwerts hat zusätzlich den Vorteil, dass der Variationskoeffizient eine dimensionslose Größe ist. Er kann daher auch herangezogen werden, um Variablen mit unterschiedlichen Maßeinheiten zu vergleichen:

Zusammenfassung

Praktische Umsetzung mit Statistiksoftware

Beispieldaten & R-Syntax herunterladen: [Link]

Datenbeispiel

Unser Beispieldatensatz (hypothetisches Datenbeispiel) liegt als .csv-Datei vor. Die Daten können mit der read.csv-Funktion in ein Objekt vom Typ data.frame eingelesen werden (der korrekte Pfad zum Speicherort muss angegeben werden):

dat <- read.csv("C:/... Pfad .../dat.csv")

Der Datensatz enthält u.a. die Variablen punkte (erzielte Punktzahl in einem Test), schlafdauer (Schlafdauer in der Nacht vor dem Test in Std.), lernzeit (insgesamt für den Test aufgewendete Lernzeit in Std.) und lsport (Lieblingssportart).

Für einen ersten Überblick über die Struktur des Datensatzes und die im Datensatz enthaltenen Variablen kann die Funktion str(dat) verwendet werden:

str(dat)

liefert das folgende Ergebnis:

 'data.frame':  120 obs. of  25 variables:
 $ X                     : int  94 66 78 28 3 113 16 11 96 99 ...
 $ punkte                : num  93 76.5 79.5 85 66.5 71 56.5 77 59 63.5 ...
 $ schlafdauer           : num  6.2 5.3 5.5 7 6.5 6.4 5.7 6.8 5.4 6.8 ...
 $ lernzeit              : num  8.2 7 6.8 7.3 7.3 3.9 4.9 7.6 2.5 9.2 ...
 $ nachhilfe             : int  1 1 1 1 1 0 0 1 0 0 ...
 $ zeugnis_mathe_roh     : num  101.3 89.7 86.2 83.6 86.8 ...
 $ zeugnis_mathe_punkte  : int  13 11 10 10 10 11 9 10 9 10 ...
 $ zeugnis_mathe_note    : Factor w/ 4 levels "ausreichend",..: 1 2 2 2 2 2 3 2 3 2 ...
 $ zeugnis_deutsch_punkte: int  8 9 10 6 10 10 9 12 5 13 ...
 $ zeugnis_deutsch_note  : Factor w/ 4 levels "ausreichend",..: 3 3 2 4 2 2 3 2 4 1 ...
 $ lsport                : Factor w/ 6 levels "Andere Sportart",..: 4 5 1 3 3 4 3 3 4 4 ...
 $ sport_fb              : int  0 1 0 1 1 1 1 1 1 1 ...
 $ sport_bb              : int  0 0 1 0 0 0 0 1 1 0 ...
 $ sport_sw              : int  1 1 1 1 0 0 1 1 1 1 ...
 $ sport_tn              : int  0 0 0 0 0 0 0 0 1 0 ...
 $ sport_an              : int  1 0 1 1 0 0 1 1 1 1 ...
 $ sport_no              : int  0 0 0 0 0 0 0 0 0 0 ...
 $ sport_test            : int  0 1 1 0 1 1 0 1 1 1 ...
 $ kantine_zufr          : int  4 4 3 5 3 2 2 1 3 2 ...
 $ taschengeld           : int  33 30 29 35 28 32 41 36 34 34 ...
 $ lauf100               : num  14.3 13.2 13.9 14 15 14.2 14.1 14.8 15.2 13.8 ...
 $ lauf1000              : num  234 229 210 222 227 ...
 $ lauf5000              : num  489 465 484 486 461 ...
 $ kugel                 : num  8.15 9.26 8.47 8.37 7.56 ...
 $ lfach                 : Factor w/ 7 levels "anderes Fach",..: 2 2 2 2 2 2 2 2 2 2 ...

Zu den einzelnen Variablen zeigt die Ausgabe deren Speicherformat (int für "integer", num für "numeric" - beides Zahlenwerte, Factor für nicht-numerische Variablen) und die jeweils ersten Werte im Datensatz.

Bei Verwendung von R-Studio liefert der Data Viewer zudem einen Einblick in den Datensatz als Datentabelle. Aufgerufen wird er mit der Funktion

View(dat)

So sieht ein Ausschnitt aus dem Data Viewer aus:

r_data_viewer_ausschnitt.png

Spannweite

Zur Bestimmung der Spannweite lassen wir uns Minimum und Maximum der Verteilung mit der Funktion range() anzeigen. Um das Merkmal schlafdauer auszuwählen, benutzen wir dat$schlafdauer und setzen dies in die Funktion range() ein:

range(dat$schlafdauer)

Wir erhalten das Ergebnis

[1] 4.2 7.8

Die Differenz aus Maximum und Minimum ergibt die Spannweite.

> 7.8-4.2
[1] 3.6

Mit range(dat$schlafdauer)[1] wählen wir direkt das erste Element aus range(dat$schlafdauer) aus, also das Minimum. Analog wählen wir mit range(dat$schlafdauer)[2] das zweite Element aus, also das Maximum. Damit können wir uns direkt die Spannweite berechnen lassen, ohne zuvor Maximum und Minimum abzulesen:

range(dat$schlafdauer)[2] - range(dat$schlafdauer)[1]

Die Spannweite des Merkmals Schlafdauer beträgt 3,6 Stunden.

Interquartilabstand

Mit dem Befehl IQR() lässt sich der Interquartilabstand eines Merkmals berechnen. Für das Merkmal lernzeit verwenden wir:

IQR(dat$lernzeit)

Alternativ können wir selbst die Differenz zwischen dem dritten und dem ersten Quartil bilden. Dafür bestimmen wir das dritte Quartil mit quantile(dat$lernzeit, 0.75) und das erste Quartil mit quantile(dat$lernzeit, 0.25):

quantile(dat$lernzeit, 0.75) - quantile(dat$lernzeit, 0.25)

Beide Varianten erzeugen das Ergebnis 2,875. Der Interquartilabstand des Merkmals Lernzeit beträgt knapp 3 Stunden.

Varianz und Standardabweichung

Wir benutzen die Formel var() für die Berechnung der Varianz. Für die Varianz des Merkmals punkte schreiben wir

var(dat$punkte)

Die Varianz der Punktezahl beträgt 265,5.

Die Standardabweichung lassen wir uns mit der Formel sd() berechnen:

sd(dat$punkte)

Als Ergebnis erhalten wir 16,29455. Die Standardabweichung des Merkmals Punktezahl beträgt 16,3 Punkte.

Den Variationskoeffizienten berechnen wir anhand der Formel als Quotienten (Für den Operator Geteilt schreiben wir in R "/") aus der Standardabweichung (sd()) und dem arithmetische Mittel (mean()):

sd(dat$lauf100)/mean(dat$lauf100)
sd(dat$lauf1000)/mean(dat$lauf1000)
sd(dat$lauf5000)/mean(dat$lauf5000)

Wir erhalten die folgenden Ergebnisse:

> sd(dat$lauf100)/mean(dat$lauf100)
[1] 0.05912472
> sd(dat$lauf1000)/mean(dat$lauf1000)
[1] 0.05791901
> sd(dat$lauf5000)/mean(dat$lauf5000)
[1] 0.03337572

Wichtige Befehlsoptionen

na.rm = TRUE bei fehlenden Werten

Liegen bei einer Variable im Datensatz nicht für alle Beobachtungsfälle Daten vor, können diese fehlenden Werte (als NA bezeichnet) bei der Berechnung des Interquartilabstands, der Varianz oder der Standardabweichung zu dem Ergebnis

[1] NA

führen. Um die fehlenden Werte bei der Berechnung auszuschließen, verwenden wir die Befehlsoption na.rm = TRUE:

IQR(dat$lernzeit, na.rm = TRUE)
var(dat$punkte, na.rm = TRUE)
sd(dat$punkte, na.rm = TRUE)

Hier entsteht ein Abschnitt zu Analyse von Streuungsmaßen in Stata.

Bei dringenden Fällen können Sie einen Termin zur Beratung vereinbaren.

Beispieldaten & SPSS-Syntax herunterladen: spss_streuung.zip

Datenbeispiel

Spannweite, Interquartilabstand, Varianz und Standardabweichung

Statt durch Klicken durch das Menü können wir uns die Streuungsmaße über die Syntax ausgeben lassen. Dazu verwenden wir den folgenden Code:

FREQUENCIES VARIABLES=punkte schlafdauer 
  /NTILES=4 
  /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM.

Wir verwenden den Befehl FREQUENCIES und geben nach VARIABLES= nacheinander alle gewünschten Variablen mit Leerzeichen getrennt an. Das Ergebnis wäre je eine Häufigkeitstabelle pro Variable. Um zusätzlich Streuungsmaße zu erhalten, geben wir den Unterbefehl /STATISTICS= ein mit den Optionen STDDEV VARIANCE RANGE MINIMUM MAXIMUM. Dabei steht STDDEV für die Standardabweichung, VARIANCE für die Varianz, RANGE für die Spannweite sowie MINIMUM und MAXIMUM für den kleinsten und den größten Wert. Mit NTILES=4 fordern wir Quartile an, d.h. die Verteilung wird in vier gleichgroße Gruppen geteilt. Mit NTILES=10 würden wir dementsprechend Perzentile erhalten. Mit dem Punkt schließen wir den Befehl ab.

Statt mit FREQUENCIES (im Menü: Analysieren -> Deskriptive Statistiken -> Häufigkeiten) können wir uns Maßzahlen alternativ mit DESCRIPTIVES berechnen. Dies kann bei metrischen Variablen mit großem Merkmalsraum von Vorteil sein, da keine Häufigkeitstabellen ausgegeben werden und über die Syntax schnell die gewünschten Maßzahlen angegeben werden können. Wir verwenden entweder den Code

DESCRIPTIVES VARIABLES=punkte 
  /STATISTICS=STDDEV VARIANCE RANGE.

oder Klicken durch das Menü: Analysieren -> Deskriptive Statistiken -> Deskriptive Statistik -> Variablen auswählen -> Optionen -> Std. abweichung, Varianz, Bereich -> weiter -> OK.