Statistische Maßzahlen für Lage und zentrale Tendenz

Einleitung

Mit statistischen Maßzahlen für Lage und zentrale Tendenz können wir Aussagen darüber treffen, welche Werte für ein Merkmal typisch sind. Der Begriff "Lagemaße" verweist darauf, dass diese Kennzahlen anzeigen, in welchem Wertebereich der Variablen unsere Fälle "liegen". Die gängigsten Maßzahlen für die zentrale Tendenz sind der Modalwert, der Median und das arithmetische Mittel. Wie wir sehen werden wird der als "typisch" anzusehende Wert von den drei Lagemaßen ganz unterschiedlich definiert.

Die Entscheidung für eine bestimmte Maßzahl ist daher davon abhängig zu machen, welche Aussage wir genau treffen wollen. Da die Berechnung der Maßzahlen teilweise ein bestimmtes Skalenniveau der Variable voraussetzt ist die Entscheidung aber auch von der Art der zu beschreibenden Variable abhängig.

Mit Maßzahlen für die zentrale Tendenz können wir beispielsweise die folgenden Fragen beantworten:

  • Welche Punktezahl haben SchülerInnen in einem Deutschtest im Schnitt erreicht?

  • Welches ist die mittlere Anzahl an Stunden, die SchülerInnen für einen Mathetest lernen?

  • Welche ist die von SchülerInnen in der Freizeit am häufigsten ausgeübte Sportart?

Bei allen drei aufgeführten Maßzahlen handelt es sich um Mittelwerte, da sie jeweils einen mittleren, "typischen" Wert der Häufigkeitsverteilungen widerspiegeln. In einigen Fällen wird mit dem Begriff Mittelwert jedoch speziell das arithemtische Mittel genannt.

Modalwert/Modus

Der Modalwert (häufig auch Modus genannt) ist die am häufigsten auftretende Ausprägung. Es wird also lediglich die Häufigkeit ausgezählt, mit der die einzelnen Ausprägungen auftreten und die Ausprägung benannt, die am häufigsten beobachtet wurde. Falls diese Definition auf mehrere Ausprägungen einer Verteilung zutrifft, besitzt diese entsprechend auch mehrere Modalwerte ("Modi"). Wir sprechen dann von einer "multimodalen" Verteilung.

Der Modalwert kann für Merkmale aller Skalenniveaus bestimmt werden. Für nominalskalierte Merkmale ist der Modalwert die einzige Option, etwas über "typische Werte" der Verteilung auszusagen - wenn wir nur Kategorien unterscheiden, aber nicht einmal eine Rangfolge annehmen können, sind weitere Überlegungen zu "mittleren Werten" nicht sinnvoll.

Median

Der Median beschreibt den mittleren Wert einer Variablen. Er wird daher auch "Zentralwert" genannt. Damit meinen wir die Ausprägung, die wir für den "mittleren Fall" beobachten, wenn wir alle Fälle anhand ihrer Ausprägung sortieren

Der Median lässt sich damit anschaulich interpretieren: Die Hälfte der Fälle weist Werte auf, die höchstens dem Median entsprechen, die andere Hälfte hat Werte die mindestens so groß sind wie der Median. Der Median ist durch seine Konstruktionsweise relativ unempfindlich gegenüber

Notwendig ist mindestens ein ordinales Skalenniveau der Merkmale, da die Werte sonst nicht geordnet werden könnten.

Berechnung des Medians

In diesem Abschnitt wird die Formel zur Berechnung des Medians erläutert.

Zur Berechnung des Medians werden alle Werte eines Merkmals der Größe nach sortiert. So wird beispielsweise aus den folgenden Werten der Mathenote von 7 SchülerInnen {\( 2;3;1;3;2;5;2 \)} die geordnete Reihe {\( 1;2;2;2;3;3;5 \)}. Der Median ist der Wert, der in der Mitte dieser Reihe liegt. In diesem Fall ist der Median \( 2 \).

\[ Formel \, für \, ungerade \, n: Median (\tilde{x}) = x_{(n+1)/2} = 2 \]

Bei einer ungeraden Anzahl von Beobachtungen gibt es einen einzelnen Wert, der in der Mitte der Verteilung liegt, nicht aber bei einer geraden Anzahl. In diesem Fall werden entweder die beiden mittleren Werte angegeben oder es wird das arithmetische Mittel der beiden mittleren Werte berechnet. Beispielsweise ist der Median einer Variable mit den Ausprägungen {\( 1;2;2;2;3;3;4;5 \)} entweder \( { 2;3 } \) oder \( 2{,}5 \).

\[ Formel \, für \, gerade \, n: Median (\tilde{x}) = \{ x_{n/2} ; x_{(n/2)+1}) \} = \{ 2 ; 3 \} \]

oder

\[ Formel \, für \, gerade \, n: Median (\tilde{x}) = \frac{(x_{n/2} + x_{(n/2)+1})}{2} = (2 + 3) / 2 = 2{,}5 \]

Für metrische Variablen, bei denen die Abstände der Ausprägungen interpretierbar sind, hat diese Konstruktionsweise des Medians die interessante Konsequenz, ihn realtiv "unanfällig" für Verzerrungen durch einzelne sehr große oder sehr kleine Werte zu machen (er ist nicht "ausreißersensitiv"). Sehr große Ausprägungen wirken sich nur dadurch auf den Median aus, dass die entsprechenden Fällen weit oben in der Rangfolge einsortiert werden. Bspw. könnte der größte beobachtete Wert auch jeden beliebigen noch größeren Wert annehmen, ohne dass der Wert des Medians sich ändern würde.

Median aus einer Häufigkeitstabelle ablesen

Falls eine Häufigkeitstabelle mit relativen und kumulierten Häufigkeiten vorliegt, kann der Median einfach aus der Tabelle abgelesen werden. Bei der ersten Ausprägung, bei der die kumulierten Häufigkeiten einen Wert von \( 0{,}5 \) erreichen bzw. übersteigen, handelt es sich um den Median.

Arithmetisches Mittel

Das arithmetische Mittel beschreibt den durchschnittlichen Wert der Variablen. Wir berechnen die Summe aller Fälle und dividieren den Wert durch die Anzahl aller Fälle. "Durchschnittlich" kann hier verstanden werden als: Die "Gesamtmenge" der beobachteten Ausprägungen wird "gleichmäßig" auf alle Fälle aufgeteilt.

Bezeichnet wird das arithmetische Mittel meist als \( \bar{x} \) (x-quer). Notwendig ist ein metrisches Skalenniveau der Merkmale.

Berechnung des arithmetischen Mittels

In diesem Abschnitt wird die Formel zur Berechnung des arithmetischen Mittels erläutert.

Das arithmetische Mittel ergibt sich aus der Summe aller Werte dividiert durch die Anzahl der Werte.

\[ \bar{x} = \frac{\sum_{i=1}^n (x_i)}{n} \]

Für die folgenden Ausprägungen des Merkmals erreichte Punkte in einem Mathetest {\( 85,127,125,134,54,102 \)} berechnen wir beispielsweise \( \bar{x} = \frac{85+127+125+134+54+102}{6} = \frac{627}{6} = 104{,}5 \). Die sechs SchülerInnen haben durchschnittlich \( 104{,}5 \) Punkte erreicht.

[zu ergänzen: Berechnung des arithmetischen Mittels aus einer Häufigkeitstabelle]

Ergänzen Hinweis ausreißersensitivität, "typische Werte?"

Zur Berechnung des arithmetischen Mittels wird metrisches Skalenniveau vorausgesetzt. Anders als beim Median wird hier nicht allein die Rangordnung der Werte berücksichtigt, sondern auch die Abstände zwischen den Werten - sonst dürften wir nicht addieren. Abstände lassen sich bei nominalem und ordinalem Skalenniveau nicht sinnvoll interpretieren.

Die Summe aller Abweichungen vom arithmetischen Mittel beträgt 0.

Beispielberechnung

Mittelwerte im Vergleich

Aus den unterschiedlichen Berechnungsweisen folgen unterschiedliche Eigenschaften der drei Maßzahlen. Mit der folgenden interaktiven Anwendung können Sie prüfen, wie sich die Maßzahlen verändern, wenn bei Beispieldaten einzelne Fälle ausgeschlossen werden. Schließen Sie einzelne Fälle (z.B. Extremwerte) über die Schalter aus und beobachten Sie, wie sich arithmetisches Mittel, Median und Modus verändern!

Das arithmetische Mittel verändert sich deutlich in Abhängigkeit davon, ob extreme Werte in die Berechnung eingehen - wir nennen diese Eigenschaft anfällig für Ausreißer. Im Gegensatz dazu sind Median und Modus robust gegen Ausreißer.

Inferenzstatistik für arithmetisches Mittel: 1-Stichproben T-Test

Ist die Annahme gerechtfertigt, dass ein gefundener Mittelwert aus einer Grundgesamtheit mit bekanntem Mittelwert stammt?

Zusammenfassung