Grundprinzip Inferenzstatistik

Statistische Inferenz

Mit deskriptiven statistische Verfahren lassen sich Verteilungen und Zusammenhänge in vorliegenden Daten beschreiben. In vielen Fällen stellen wir aber Forschungsfragen, die über die erhobenen Daten hinausweisen.

Zum Beispiel, weil wir (nur) einen kleinen Ausschnitt (eine Stichprobe) aus der Menge aller Untersuchungsobjekte (der Grundgesamtheit) beforschen können, für die wir eigentlich eine Aussage (über Verteilungen, Zusammenhänge, usw.) treffen wollen.

Inferenzstatistische Verfahren können uns dabei helfen, aus Daten einer Stichprobe Aussagen über die Grundgesamtheit abzuleiten. Eine wichtige Rolle spielt dabei die Einschätzung der Unsicherheit von Aussagen über die Grundgesamtheit, die durch die Betrachtung (nur) der Stichprobe entsteht.

Ein klassisches Beispiel für die Anwendung inferenzstatistischer Verfahren ist die "Umfrageforschung". Nur selten ist es möglich, alle Personen standardisiert zu befragen, für die eine Aussage getroffen werden soll. Deshalb wird z.B. in Befragungen zur politischen Stimmungslage in Bevölkerungen von Staaten eine zufällige Auswahl von meist nur wenigen Hundert oder Tausend Personen befragt. Deren Antworten sollen dann Aufschluss über das Stimmungsbild in der Gesamtbevölkerung geben.

In diesem Artikel stellen wir an einem einfachen Beispiel die Grundprinzipien vor, die hinter (frequentistischen) inferenzstatistischen Verfahren stehen.

Anwendungsbeispiel

Als Anwendungsbeispiel für diesen Artikel greifen wir wieder auf unser Beispiel einer Befragung von Schüler:innen zurück. Wir wollen untersuchen, wie viel Taschengeld Schüler:innen der 7. Klasse an Bochumer Schulen im Monat zur Verfügung haben. Eine statistische Maßzahl, die uns zur Beantwortung der Frage interessiert, ist das arithmetische Mittel des monatlichen Taschengelds der Schüler:innen.

Die Grundgesamtheit in unserem Beispiel besteht aus allen Kindern, die

  • in Bochum (-> räumliche Abgrenzung)
  • eine Schule im Stadtgebiet besuchen, (-> sachliche Abgrenzung)
  • und zwar zum Zeitpunkt der Erhebung (-> zeitliche Abgrenzung)

Eine Befragung aller Schüler:innen ist hier zu aufwändig. Wir konnten aber auf eine Liste aller Schüler:innen der 7. Klassen beim Schulamt für die Stadt Bochum zugreifen und eine zufällige Auswahl (einfache Zufallsstichprobe) von 400 Schüler:innen ziehen. (In der Realität wäre es vermutlich deutlich aufwändiger, eine Zufallsauswahl aller Bochumer Schüler:innen in der 7. Klasse zu ziehen.)

Diese 400 Schüler:innen wurden nach der Höhe ihres monatlichen Taschengelds befragt. Zur Vereinfachung gehen wir davon aus, dass alle unsere Frage beantwortet haben. Das arithmetische Mittel dieser Angaben für die Stichprobendaten lässt sich dann leicht berechnen: Nehmen wir an, wir erhalten bar(x) = 34 Euro. Noch stehen wir aber vor einem Problem:

Können wir auf Grundlage der Stichprobendaten annehmen, dass die Schüler*innen in Bochum durchschnittlich mehr als 34 Euro Taschengeld zur Verfügung haben? Oder ist der Mittelwert in der Grundgesamtheit eventuell viel niedriger (oder viel höher), weil wir nur zufällig eine Auswahl von Schüler:innen mit besonders hohem (oder niedrigen) Taschengeld in unserer Stichprobe haben?

Statistische Kennwerte in Stichproben

Statistische Maßzahlen oder "Kennwerte" dienen der Beschreibung der Verteilung einer Variable aus der Stichprobe. Die Daten werden mit Hilfe der Kennwerte zusammengefasst. Damit wird eine Übersicht über die Ausprägungen/Merkmalsverteilung einer Variable ermöglicht. Häuig genutzte statistsiche Kennwerte sind der Mittelwert, die Standardabweichung, der Median oder auch bestimmte Anteile, Quantile usw. Anhand dieser Kennwerte können Daten einfach interpretiert, dargestellt und auch verglichen werden.

Wenn wir als Kennwert das arithmetisches Mittel des Taschengelds nur für eine Teilmenge aller Schüler:innen berechnen, müssen wir davon ausgehen, dass der Wert vom arithmetischen Mittel aller Schüler:innen abweicht. Bei einer Zufallsstichprobe sind schließlich alle möglichen Zusammensetzungen denkbar, im Extremfall könnten wir ganz "untypische" Stichproben ziehen, in denen die Schüler:innen gar kein Taschengeld bekommen, oder in denen alle Beträge von über 100 Euro bekommen - und wir können nicht wissen, was für eine Stichprobe wir gerade gezogen haben

Unser Ziel muss also sein einschätzen zu können wie wahrscheinlich es ist, dass der wahre Mittelwert der Grundgesamtheit in der Nähe unseres Stichprobenwerts liegt.

Dies funktioniert, da die statistischen Kennwerte einer Stichprobe nicht wahllos verteilt sind, sondern bestimmten Wahrscheinlichkeitsverteilung folgen. Was soll das heißen?

Die Grundidee hinter der frequentistischen Inferenzstatistik ist es sich zu überlegen was passieren würde, wenn wir immer wieder neue Stichproben aus der Grundgesamtheit ziehen würden, bis alle möglichen Stichproben "durchgespielt" sind. Für jede Stichprobe würden wir das arithmetische Mittel berechnen und notieren, um zu verstehen wie sich die Stichprobenkennwerte über alle Stichproben verteilen.

In der folgenden Darstellung wird dieses Gedankenexperiment als Computersimulation durchgeführt. Dabei haben wir die Möglichkeit die Anzahl der Stichproben und die Größe der Stichproben einzustellen, die für die Simulation verwendet werden soll.

  • Die obere Grafik zeigt die Verteilung in der Grundgesamtheit. Der "wahre Mittelwert" ist als blaue Linie eingezeichnet
  • Aus dieser Verteilung ziehen wir eine bestimmte Anzahl von Stichproben.
  • Die untere Grafik zeigt das Histogramm der Verteilung der Mittelwerte aus allen in der Simulation gezogenen Stichproben.
  • Der Mittelwert der Grundgesamtheit ist wieder blau eingezeichnet, der Mittelwert der Stichprobenmittelwerte grün gestrichelt.

In der Voreinstellung werden 50 Stichproben mit einer Stichprobengröße von n=20 gezogen. Lassen Sie die Simulation mit unterschiedlichen Einstellungen wiederholen! Jede Änderung der Schieberegler löst eine Neuberechnung aus.

  • Wie verändert sich die Verteilung der Mittelwerte der einzelnen Stichproben bei einer Erhöhung der Stichprobengröße?
  • Was passiert, je mehr Stichproben gezogen werden?

Sie können einen Teilbereich der Kennwerteverteilung größer anzeigen lassen, indem Sie durch "Klicken, Halten & Ziehen" mit der Maus einen Bereich markieren und darauf einen Doppelklick setzen. Ein erneuter Doppelklick beendet die Vergrößerung.

Schon in der Voreinstellung fällt auf, dass ganz extreme Abweichungen vom Stichprobenmittelwert bereits bei 20er-Stichproben kaum vorkommen - alle Mittelwerte aus den gezogenen Stichproben befinden sich in einem Bereich zwischen (ca.) 30 und 40 Euro.

Erhöhen wir die Stichprobengröße, wird dieser Bereich rasch enger. Schon im Bereich von n=1000 weichen die Stichprobenmittelwerte nur noch sehr selten mehr als 2 oder 3 Euro vom Gesamtmittelwert ab.

Wenn man die Anzahl der Stichproben (mit ausreichender Größe) erhöht, folgt die Verteilung der Stichprobenmittelwerte in der Simulation immer mehr einer bestimmten, "glockenkurvigen" Form.

Tatsächlich lässt sich mathematisch beweisen, dass dies die als "Gaußsche Normalverteilung" bekannt gewordene Verteilung ist, die mathematisch mit der Formel \( f(x | \mu , \sigma^2 ) = \frac{1}{\sqrt(2 \pi \sigma^2)} \cdot e^{-\frac{(x - \mu)^2}{2 \cdot \sigma^2}} \) beschrieben werden kann.

Das gilt für große Stichproben (Faustregel: N> 30) sogar dann, wenn die Verteilung der Werte in der Grundgesamtheit (wie in unserem Beispiel!) nicht normalverteilt ist.

Theoretische Kennwerteverteilungen

In unserem Beispiel sehen wir, dass die Mittelwerte in gleichartigen Stichproben einer theoretischen Kennwerteverteilung folgen: Ohne in der Realität unendlich viele Stichproben ziehen zu müssen können wir über die Formel der Normalverteilung eine Einschätzung entwickeln, welche Stichprobenmittelwerte wie wahrscheinlich sind.

Dazu müss(t)en wir hier nur zwei Werte kennen: Den Mittelwert der Grundgesamtheit und die Varianz der Grundgesamtheit.

Stehen wir damit nicht wieder am Anfang aller Überlegungen? Wir haben doch gerade keine Informationen über die Grundgesamtheit, deshalb haben wir die Stichprobe doch überhaupt erst gezogen?

Ja, das ist vollkommen richtig. Verschiedene inferenzstatistische Verfahren verwenden deshalb unterschiedliche "Workarounds", um dieses Problem zu lösen. Wie wir sehen werden ist das Wissen um die theoretische Kennwerteverteilung zur Lösung unseres Problems tatsächlich sehr hilfreich!

Übertragung auf andere statistische Maßzahlen

Es lässt sich zeigen dass Mittelwerte (und auch Anteilswerte) in Stichproben der Normalverteilung folgen.

Andere statistische Maßzahlen wie z.B. Zusammenhangsmaße (Korrelationsmaße, Chi^2 in Kreuztabellen, Regressionskoeffizienten...) folgen anderen theoretischen Kennwerteverteilungen, das Grundprinzip ist aber in der Inferenzstatistik für all diese Kennwerte gleich: Wir können theoretisch/mathematisch herleiten, wie sich die Kennwerte in Stichproben verteilen, und aus diesem Wissen die weiteren inferenzstatistischen Überlegungen begründen.

Der Standardfehler

Die wichtigste Information aus der Kennwerteverteilung ist das Ausmaß der Streuung der Kennwerte: Je breiter die Kennwerteverteilung, desto wahrscheinlicher sind größere Abweichungen eines Stichprobenkennwerts gegenüber dem Kennwert der Grundgesamtheit.

Die Streuung einer Verteilung lässt sich mit der Standardabweichung ausdrücken. Die Standardabweichung der Kennwerteverteilung bezeichnen wir als Standardfehler.

Der Standardfehler ist der zentrale Wert für alle weiteren Inferenzstatistischen Überlegungen: Er drückt in einer Zahl aus, wie unsicher wir uns bzgl. eines Stichprobenergebnisses sein sollten.

Punktschätzung

Als "Punktschätzung" bezeichnen wir die Angabe eines Schätzwerts für den Kennwert der Grundgesamtheit.

Die Problemstellung lautet hier also: Ist der Kennwert der Stichprobe die bestmögliche Schätzung?

Der Vergleich des Mittelwerts der Kennwerteverteilung mit dem Mittelwert der Grundgesamt in der Simulation oben zeigt, dass wir für Mittelwerte zumindest keine bessere Schätzung abgeben können als den Mittelwert aus der Stichprobe: Je größer die Stichprobengröße und je mehr Stichproben wir simulieren, desto weniger weichen die beiden Werte voneinander ab. Außerdem zeigt uns die Normalverteilung der Stichprobenmittelwerte, dass Abweichungen nach oben und unten gleich wahrscheinlich sind - die Verteilung ist symmetrisch.

Das gilt allerdings nicht für alle Maßzahlen. So wird beispielsweise die Streuung (Standardabweichung oder Varianz) der Grundgesamtheit in Stichproben systematisch unterschätzt und kann (ohne "Korrektur") nicht als Punktschätzung verwendet werden.

In jedem Fall ist eine Punktschätzung immer mit der Unsicherheit behaftet, mit der Stichprobe "daneben zu liegen". Um dennoch zu einer Einschätzung über den wahren Wert in der Grundgesamtheit zu kommen, müssen wir eine Intervallschätzung vornehmen, die diese Unsicherheit berücksichtigt.

Konfidenzintervalle

An Stelle eines Punktwerts wollen wir ein Intervall angeben, in dem der Wert der Grundgesamtheit mit ausreichender Sicherheit (bzw. "Konfidenz") liegt.

Bei der Bestimmung greifen wir auf den Standardfehler als Beschreibung für die Unsicherheit der Schätzung zurück. Je größer das Standardfehler, um so breiter sollte das Intervall sein, um den wahren Wert mit gleichbleibender Sicherheit zu überdecken.

Bestimmung der Intervallsbreite

Als allgemeine Form der Normalverteilung betrachten wir die Standardnormalverteilung, die Normalverteilung mit einem arithmetischen Mittel von 0 und einer Standardabweichung von 1.

Normalverteilungen lassen sich durch die sogenannte z-Transformation in die Standardnormalverteilung überführen:

\[ z_i = \frac{\bar{x}_i - \mu}{\sigma_{\bar{x}}} \]
  • Der Mittelwert der Grundgesamtheit \( \mu \) wird von allen Werten \( \bar{x}_i \) abgezogen -> So kommen wir zu einem Mittelwert von 0
  • Die Werte werden durch die Standardabweichung \( \sigma_{\bar{x}} \) geteilt -> So kommen wir zu einer Standardabweichung von 1.

Umgekehrt können Werte der Standardnormalverteilung in Werte einer anderen Normalverteilung umgerechnet werden, indem der Mittelwert addiert und mit dem Standardfehler multipliziert wird.

\[ \bar{x}_i = \mu + z_i \cdot \sigma_{\bar{x}} \]

Die Größe einer Fläche unter der Kurve einer Normalverteilung kann als Wahrscheinlichkeit interpretiert werden, dass ein Wert im entsprechenden Bereich der x-Achse gezogen wird. Die Standardnormalverteilung ist so skaliert, dass die Fläche unter der gesamten Kurve 1 beträgt. So lässt sich hier leicht bestimmen, in welchem Bereich um den Mittelwert ein bestimmter Anteil der möglichen Stichprobenmittelwerte liegt (wobei ein entsprechender Anteil der Wahrscheinlichkeit entspricht, einen solchen Wert zu ziehen).

So können wir z.B. bestimmen, dass 95% aller Stichprobenmittelwerte im Bereich zwischen \( \pm 1,96 \) Standardabweichungen um den Mittelwert liegen.

Die Logik von Konfidenzintervallen

Das Vorgehen bei der Bestimmung eines Konfidenzintervalls für unseren Stichprobenmittelwert lässt sich leicht beschreiben: um den Stichprobenmittelwert (unsere Punktschätzung) legen wir ein Intervall, dass als Quantilwert x Standardfehler berechnet wird.

  • Der Quantilwert wird je nach gewünschtem "Konfidenzniveau" aus der Standardnormalverteilung bestimmt.
  • Der Standardfehler kann aus den Stichprobendaten geschätzt werden (damit lösen wir das Problem der unbekannten Standardabweichung der Grundgesamtheit)

Interpretation: Das so bestimmte Intervall deckt mit der zugrundegelegten Sicherheit den wahren Wert der Grundgesamtheit ab - wir sind uns zu (hier:) 95% sicher, dass das Intervall den Mittelwert in der Grundgesamtheit überdeckt

Frage: Warum sagen wir nicht, dass der wahre Mittelwert mit 95%iger Wahrscheinlichkeit im Intervall liegt?

Weil der Mittelwert entweder im Intervall liegt oder eben nicht - die Wahrscheinlichkeit dafür beträgt entweder 1 (liegt drin) oder 0 (liegt nicht drin).

Anders gedacht: Den Mittelwert interessiert nicht, was für eine Stichprobe wir ziehen - er bleibt wo er ist. Was sich durch unsere Stichprobenziehung ändert, ist lediglich die Punktschätzung, um die wir unser Intervall legen.

Warum funktioniert diese Logik auch ohne zu wissen wo der Mittelwert der Grundgesamtheit liegt?

konfidenzintervalle_1.pdf

Die Grafik veranschaulicht, warum ein so berechnetes Intervall die gewünschte Eigenschaft hat.

  • Solange unserer Punktschätzung innerhalb des Bereichs \( 1 - \alpha \) um den wahren Mittelwert herum liegt wird eine der beide "Seiten" des Intervalls auch den wahren Mittelwert überdecken.
  • Erst wenn wir eine Stichprobe gezogen haben, deren Punktschätzung außerhalb dieses Bereich unter einer der beiden roten Flächen liegt, wird der wahre Mittelwert nicht mehr enthalten sein.
  • Da wir wissen, dass wir mit einer Wahrscheinlichkeit von 95% eine Stichprobe mit einer Punktschätzung im "mittleren Bereich" ziehen werden können wir mit 95%iger Sicherheit davon ausgehen, dass das berechnete Konfidenzintervall den wahren Mittelwert überdeckt - auch ohne zu wissen, wo dieser eigentlich genau liegt.

Statistische Tests

Bei einem statistischen Test verwenden wir dunsere Kenntnisse über das Zustandekommen der Kennwerteverteilung dazu, bestimmte Hypothesen über die Grundgesamtheit zu testen. Ein kleiner Spoiler: Hier wird das Problem der fehlenden Kenntnis über den Kennwert der Grundgesamtheit gelöst, in dem wir einfach "testweise" annehmen, dass ein bestimmter Kennwert vorliegt...

Wir erläutern das Grundprinzip im Folgenden am Beispiel eines Tests für Mittelwertdifferenzen

Als Beispiel nehmen wir an, dass wir nicht nur in Bochum, sondern auch in Düsseldorf Siebtklässler:innen nach der Höhe ihres Taschengeldes befragt haben. Hier wurden 300 Kinder zufällig für die Befragung ausgewählt. Für diese Stichprobe erhalten wir ein durchschnittliches Taschengeld von 38 Euro (zur Erinnerung: gegenüber 34 Euro in Bochum).

Unsere Hypothese ist, dass sich die mittleren Taschengelder der Siebtklässler:innen in Bochum und Düsseldorf tatsächlich (und nicht nur in unseren zufällig zusammengesetzen Stichproben) unterscheiden.

Null- und Alternativhypothese

Die uns interessierende Hypothese nennen wir die Alternativhypothese. Sie lautet hier:

Es gibt (irgend)einen Unterschied zwischen dem mittleren Taschengeld der Grundgesamtheit in Bochum (\( \mu_1 \)) und dem mittleren Taschengeld der Grundgesamtheit in Düsseldorf (\( \mu_2 \)), oder formal:

\[ H_A: \mu_1 \neq \mu_2 \]

Der Alternativhypothese stellen wir die sogenannte Nullhypothese gegenüber. Sie behauptet das "Gegenteil" der Alternativhypothese und lautet hier:

Es gibt keinen Unterschied zwischen dem mittleren Taschengeld in den Grundgesamtheiten, formal:

\[ H_0: \mu_1 = \mu_2 \]

Der statistische Test soll nun zwischen diesen beiden Hypothesen entscheiden. Grundsätzlich konstruieren wir statistische Tests so, dass die uns inhaltlich interessierende Hypothese als Alternativ- und die Gegenhypothese als Nullhypothese aufgestellt wird. "Getestet" wird dann die Nullhypothese - können wir sie ausschließen, haben wir Grund zur Annahme, die Alternativhypothese beibehalten zu dürfen.

Konstruktion des Tests

Für den Test nehmen wir immer an, dass der von Nullhypothese behauptete Kennwert der Grundgesamtheit zutrifft. Mit dieser Setzung (und der auch hier aus den Stichprobendaten geschätzten Standardabweichung der Grundgesamtheit) haben wir alle Werte, um die entsprechende Kennwerteverteilung zu bestimmen.

Beim Test für Mittelwertdifferenzen betrachten wir dabei direkt die Kennwerteverteilung der Mittelwertdifferenzen: Wie würden sich die Differenzen in wiederholten Stichprobenziehungen verteilen, wenn eigentlich gleiche Mittelwerte in der Grundgesamt vorliegen?

Wir würden nicht erwarten, dass in allen Stichproben eine Differenz von Null herauskommt. Die Zufallsfehler, die zu Unterschieden zwischen Mittelwerten in verschiedenen Stichproben führen, werden auch hier zu mehr oder weniger großen Differenzen der beiden Stichprobenmittelwerte führen.

Aber auch hier folgt die Kennwerteverteilung einem glockenkurvigen Verlauf (hier der sogenannten t-Verteilung), und Werte nahe an 0 (dem Mittelwert der Kennwerteverteiung) sind - falls die Nullhypothese zutrifft (!) - wahrscheinlicher als weiter von 0 entfernte Werte.

Auch hier nutzen wir nun die Interpretation der Fläche unter der Kurve als Wahrscheinlichkeit, die Werte im jeweiligen Bereich der x-Achse aus einer Zufallsstichprobe zu erhalten: Für den statistischen Test stecken wir die Bereiche am rechten und linken Rand der Verteilung ab, für die uns die Wahrscheinlichkeit zu gering ist. Wenn wir auf einem 95%igen Vertrauensniveau (bzw. mit einer Irrtumswahrscheinlichkeit von 5%) entscheiden wollen, müssen wir uns überlegen in welchem Bereich rechts und links jeweils "die letzten" 2,5% der Verteilung liegen.

Liegt der für unsere Stichprobe berechnete t-Wert innerhalb der so festgesetzen Grenzen, haben wir keinen Grund zur Annahme, dass die Nullhypothese nicht stimmen könnte - die in den Stichproben gefundene Differenz könnte einfach zufällig zu Stande gekommen sein.

Über- oder unterschreitet der für unsere Stichprobe berechnete t-Wert aber die so festgesetzte Grenze, entscheiden wir, dass es uns "zu unwahrscheinlich" erscheint, eine so große Mittelwertdifferenz zu ziehen, wenn es eigentlich keinen Zusammenhang gibt. Wir würden die Nullhypothese also verwerfen. Achtung: Damit haben wir nicht gezeigt, dass eine Differenz in einer bestimmten Größenordnung vorliegt - sondern nur, dass irgendeine Differenz plausibler erscheint als gar keine.