Statistische Maßzahlen für Lage und zentrale Tendenz

Mit statistischen Maßzahlen für Lage und zentrale Tendenz können wir Aussagen darüber treffen, welche Werte für ein Merkmal typisch sind. Der Begriff "Lagemaße" verweist darauf, dass diese Kennzahlen anzeigen, in welchem Wertebereich der Variablen unsere Fälle "liegen". Die gängigsten Maßzahlen für die zentrale Tendenz sind der Modalwert, der Median und das arithmetische Mittel. Wie wir sehen werden wird der als "typisch" anzusehende Wert von den drei Lagemaßen ganz unterschiedlich definiert.

Die Entscheidung für eine bestimmte Maßzahl ist daher davon abhängig zu machen, welche Aussage wir genau treffen wollen. Da die Berechnung der Maßzahlen teilweise ein bestimmtes Skalenniveau der Variable voraussetzt ist die Entscheidung aber auch von der Art der zu beschreibenden Variable abhängig.

Mit Maßzahlen für die zentrale Tendenz können wir beispielsweise die folgenden Fragen beantworten:

  • Welche Punktezahl haben SchülerInnen in einem Deutschtest im Schnitt erreicht?

  • Welches ist die mittlere Anzahl an Stunden, die SchülerInnen für einen Mathetest lernen?

  • Welche ist die von SchülerInnen in der Freizeit am häufigsten ausgeübte Sportart?

Bei allen drei aufgeführten Maßzahlen handelt es sich um Mittelwerte, da sie jeweils einen mittleren, "typischen" Wert der Häufigkeitsverteilungen widerspiegeln. In einigen Fällen wird mit dem Begriff Mittelwert jedoch speziell das arithemtische Mittel genannt.

Modalwert/Modus

Der Modalwert (häufig auch Modus genannt) ist die am häufigsten auftretende Ausprägung. Es wird also lediglich die Häufigkeit ausgezählt, mit der die einzelnen Ausprägungen auftreten und die Ausprägung benannt, die am häufigsten beobachtet wurde. Falls diese Definition auf mehrere Ausprägungen einer Verteilung zutrifft, besitzt diese entsprechend auch mehrere Modalwerte ("Modi"). Wir sprechen dann von einer "multimodalen" Verteilung.

Der Modalwert kann für Merkmale aller Skalenniveaus bestimmt werden. Für nominalskalierte Merkmale ist der Modalwert die einzige Option, etwas über "typische Werte" der Verteilung auszusagen - wenn wir nur Kategorien unterscheiden, aber nicht einmal eine Rangfolge annehmen können, sind weitere Überlegungen zu "mittleren Werten" nicht sinnvoll.

Median

Der Median beschreibt den mittleren Wert einer Variablen. Er wird daher auch "Zentralwert" genannt. Damit meinen wir die Ausprägung, die wir für den "mittleren Fall" beobachten, wenn wir alle Fälle anhand ihrer Ausprägung sortieren

Der Median lässt sich damit anschaulich interpretieren: Die Hälfte der Fälle weist Werte auf, die höchstens dem Median entsprechen, die andere Hälfte hat Werte die mindestens so groß sind wie der Median. Der Median ist durch seine Konstruktionsweise relativ unempfindlich gegenüber "Ausreißern", also Untersuchungseinheiten mit im Vergleich sehr großen oder kleinen Ausprägungen.

Notwendig ist mindestens ein ordinales Skalenniveau der Merkmale, da die Werte sonst nicht geordnet werden könnten.

Berechnung des Medians

In diesem Abschnitt wird die Formel zur Berechnung des Medians erläutert.

Median aus einer Häufigkeitstabelle ablesen

Falls eine Häufigkeitstabelle mit relativen und kumulierten Häufigkeiten vorliegt, kann der Median einfach aus der Tabelle abgelesen werden. Bei der ersten Ausprägung, bei der die kumulierten Häufigkeiten einen Wert von \( 0{,}5 \) erreichen bzw. übersteigen, handelt es sich um den Median.

Median rechnerisch bestimmen

Zur Berechnung des Medians werden alle Werte eines Merkmals der Größe nach sortiert. So wird beispielsweise aus den folgenden Werten der Mathenote von 7 SchülerInnen {\( 2;3;1;3;2;5;2 \)} die geordnete Reihe {\( 1;2;2;2;3;3;5 \)}. Der Median ist der Wert, der in der Mitte dieser Reihe liegt. In diesem Fall ist der Median \( 2 \).

Formel für ungerade n:

\[ Median (\tilde{x}) = x_{(n+1)/2} = 2 \]

folie1.png

Bei einer ungeraden Anzahl von Beobachtungen gibt es einen einzelnen Wert, der in der Mitte der Verteilung liegt, nicht aber bei einer geraden Anzahl. In diesem Fall werden entweder die beiden mittleren Werte angegeben oder es wird das arithmetische Mittel der beiden mittleren Werte berechnet. Beispielsweise ist der Median einer Variable mit den Ausprägungen {\( 1;2;2;2;3;3;4;5 \)} entweder \( { 2;3 } \) oder \( 2{,}5 \).

Formel für gerade n:

\[ Median (\tilde{x}) = \{ x_{n/2} ; x_{(n/2)+1}) \} = \{ 2 ; 3 \} \]

oder

\[ Median (\tilde{x}) = \frac{(x_{n/2} + x_{(n/2)+1})}{2} = (2 + 3) / 2 = 2{,}5 \]

folie2_1.png

Für metrische Variablen, bei denen die Abstände der Ausprägungen interpretierbar sind, hat diese Konstruktionsweise des Medians die interessante Konsequenz, ihn realtiv "unanfällig" für Verzerrungen durch einzelne sehr große oder sehr kleine Werte zu machen (er ist nicht "ausreißersensitiv"). Sehr große Ausprägungen wirken sich nur dadurch auf den Median aus, dass die entsprechenden Fällen weit oben in der Rangfolge einsortiert werden. Bspw. könnte der größte beobachtete Wert auch jeden beliebigen noch größeren Wert annehmen, ohne dass der Wert des Medians sich ändern würde.

Quantile

In diesem Abschnitt wird gezeigt, wie sich das Konstruktionsprinzip des Medians verallgemeinern lässt und wie die Lage einer Verteilung mit Quantilen im Detail beschrieben werden kann.

Die Idee, Verteilungen in gleich große Teile (genauer: gleich häufig besetzte Abschnitte) einzuteilen, kann auch verwendet werden, um die Verteilung der Werte noch detaillierter abzubilden. Allgemein sprechen wir von Quantilen. So können wir den Median als 50%-Quantil bezeichnen. Analog dazu können wir das 30%-Quantil betrachten: 30% der Werte sind kleiner oder gleich dem 30%-Quantil, 70% sind größer oder gleich dem 30%-Quantil. Oft verwendete Quantile haben eigene Bezeichnungen, wie z.B. der Median. Weitere bekannte Quantile sind Quartile und Perzentile:

  • Quartile teilen die Verteilung in vier gleich häufig besetzte Abschnitte ein. 25% der Werte sind kleiner oder gleich, 75% größer oder gleich dem ersten Quartil. Das zweite Quartil entspricht dem Median. Das dritte Quartil trennt die unteren 25% von den ober 75% einer Verteilung.
  • Perzentile teilen die Verteilung in 100 gleich häufig besetzte Abschnitte ein. Für Variablen mit vielen Ausprägungen kann eine Übersicht über eine Auswahl dieser Werte einen guten Eindruck der Verteilung vermitteln. Die einzelnen Perzentil-Werte stellen (wie der Median) Lagemaße dar, in der "Gesamtschau" sehen wir aber auch die Variation der Werte ( Statistische Maßzahlen für die Streuung ).

Zum Ausprobieren: Quantile schätzen

Arithmetisches Mittel

Das arithmetische Mittel beschreibt den durchschnittlichen Wert der Variablen. Wir berechnen die Summe aller Fälle und dividieren den Wert durch die Anzahl aller Fälle. "Durchschnittlich" kann hier verstanden werden als: Die "Gesamtmenge" der beobachteten Ausprägungen wird "gleichmäßig" auf alle Fälle aufgeteilt.

Bezeichnet wird das arithmetische Mittel meist als \( \bar{x} \) (x-quer). Notwendig ist ein metrisches Skalenniveau der Merkmale.

Berechnung des arithmetischen Mittels

In diesem Abschnitt wird die Formel zur Berechnung des arithmetischen Mittels erläutert.

Das arithmetische Mittel ergibt sich aus der Summe aller Werte dividiert durch die Anzahl der Werte.

\[ \bar{x} = \frac{\sum_{i=1}^n (x_i)}{n} \]

Für die folgenden Ausprägungen des Merkmals erreichte Punkte in einem Mathetest {\( 85,127,125,134,54,102 \)} berechnen wir beispielsweise \( \bar{x} = \frac{85+127+125+134+54+102}{6} = \frac{627}{6} = 104{,}5 \). Die sechs SchülerInnen haben durchschnittlich \( 104{,}5 \) Punkte erreicht.

Zur Berechnung des arithmetischen Mittels wird metrisches Skalenniveau vorausgesetzt. Anders als beim Median wird hier nicht allein die Rangordnung der Werte berücksichtigt, sondern auch die Abstände zwischen den Werten - sonst dürften wir nicht addieren. Abstände lassen sich bei nominalem und ordinalem Skalenniveau nicht sinnvoll interpretieren.

Die Summe aller Abweichungen vom arithmetischen Mittel beträgt 0.

Berechnung des arithmetischen Mittels aus einer Häufigkeitstabelle

Liegt statt der Datenreihe eine Häufigkeitstabelle vor, kann das arithmetische Mittel aus den Ausprägungen \( x_1 \) bis \( x_m \) und deren Häufigkeiten \( H_1 \) bis \( H_m \) berechnet werden:

\[ \bar{x} = \frac{\sum_{i=1}^m (x_i*H_i)}{n} \]

Mittelwerte im Vergleich

Aus den unterschiedlichen Berechnungsweisen folgen unterschiedliche Eigenschaften der drei Maßzahlen. Mit der folgenden interaktiven Anwendung können Sie prüfen, wie sich die Maßzahlen verändern, wenn bei Beispieldaten einzelne Fälle ausgeschlossen werden. Schließen Sie einzelne Fälle (z.B. Extremwerte) über die Schalter aus und beobachten Sie, wie sich arithmetisches Mittel, Median und Modus verändern!

Das arithmetische Mittel verändert sich deutlich in Abhängigkeit davon, ob extreme Werte in die Berechnung eingehen - wir nennen diese Eigenschaft anfällig für Ausreißer. Im Gegensatz dazu sind Median und Modus robust gegen Ausreißer.

Inferenzstatistik für arithmetisches Mittel: 1-Stichproben T-Test

In diesem Abschitt zeigen wir, wie inferenzstatistisch abgesichert werden kann, ob ein empirisch gefundener Mittelwert von einem bestimmten/bekannten Mittelwert einer Grundgesamtheit über mögliche Zufallsfehler hinaus abweicht.

Zusammenfassung