Tabellarische und grafische Darstellung

Tabellen und Diagramme (Grafiken, Plots, Darstellungen ...) geben uns einen Überblick über die Verteilung einer Variable - also, welche unterschiedlichen Werte eine Variable in wie vielen Fällen annimmt.

Eine direkte Betrachtung der Rohdaten in der Datenmatrix ermöglicht einen solchen Überblick in der Regel nicht. Mit Kennzahlen zu Lage und Streuung können wir die wichtigsten Aspekte der Verteilung einer Variablen erfassen, verlieren aber immer auch Informationen. Tabellarische oder visuelle Darstellungen sind deshalb in jeder Datenanalyse von Bedeutung.

In deskriptiven oder explorativen Studien kann die detaillierte Darstellung der Verteilung der Variablen ein Hauptziel der Datenanalyse sein. Für weiterführende (bi- oder multivariaten) Analysen können bestimmte Eigenschaften von Verteilungen die Anwendung einzelner Methoden einschränken bzw. erst ermöglichen.

Geeignete Darstellungsformen

Nicht jede Darstellungsform ist für alle Variablen und Verwendungszwecke gleich gut geeignet. Die folgenden Punkte sind zu berücksichtigen:

  • Welches Skalenniveau hat die darzustellende Variable?
  • Wie viele Ausprägungen hat die Variable?
  • Wie detailliert soll die Darstellung sein? Soll jeder einzelne Datenpunkt ablesbar sein, oder sind Zusammenfassungen für einen besseren Überblick erwünscht?
  • Welche (Statistik) Kenntnisse bringen die Leser*innen/Zuhörer*innen mit?
  • Inbesondere bei grafischen Darstellungen: Größe der Abbildung, Farbe oder Schwarz-Weiß?

Beispieldaten

Hier finden Sie Informationen zu den im Artikel verwendeten Beispieldaten

Tabellen

Merkmale mit wenigen Ausprägung

Tabellen lassen sich für Merkmale jeden Skalenniveaus erstellen. Für jede Ausprägung des dargestellten Merkmals wird die beobachtete Häufigkeit aufgelistet. Oft werden neben absoluten Häufigkeiten auch Prozentwerte oder relative Häufigkeiten (bezogen auf die Anzahl aller Fälle) angegeben.

Wenn eine Rangordnung der Merkmale vorliegt (also ab ordinalskalierten Merkmalen) können zusätzlich auch kumulierte Anteile eingetragen werden, die für jede Ausprägung angeben, welcher Anteil der Fälle diese Ausprägung oder eine kleinere annimmt.

Merkmale mit (zu) vielen Ausprägungen

Wenn ein Merkmal sehr viele Ausprägungen aufweist werden tabellarische Darstellungen schnell unübersichtlich und wenig informativ, weil im Extremfall jede bestimmte Ausprägung nur noch einmal vorkommt. Häufig taucht dieses Problem bei metrischen Variablen auf. Für solche Merkmale müssen die Werte zunächst gruppiert (kategorisiert) werden, so dass die beobachteten Häufigkeiten für jede Kategorie aufgeführt werden können. Natürlich geht damit immer auch ein Informationsverlust einher.

Tabellarische Darstellung von Mehrfachnennungen

Es kommt vor, dass bei (meist kategorialen) Merkmalen mehr als eine Ausprägung pro Beobachtung vorliegt. Zum Beispiel werden in Fragebögen häufig Listen von Kategorien abgefragt ("Welche Haustiere gibt es in Ihrem Haushalt?"), bei denen die Befragten explizit darauf hingewiesen werden, dass "Mehrfachantworten zulässig" sind. Für die tabellarische Darstellung ergibt sich hier das Problem, auf welche "Gesamtheit" sich Anteile und Prozentangaben beziehen sollen: Die Anzahl der Befragten, oder die Anzahl der insgesamt genannten Kategorien?

Praktische Umsetzung mit Statistiksoftware

In diesem Abschnitt zeigen wir, wie die besprochenen Tabellen mit Statistiksoftware erstellt werden können.

Diagramme für nominale und ordinale Merkmale

Balken- und Säulendiagramme

Nominale und ordinale Merkmale lassen sich grafisch mit Balken- bzw. Säulendiagrammen und Kreisdiagrammen darstellen. Für Balken-/Säulendiagramme wird für jede Ausprägung ein Balken (eine Säule) eingezeichnet. Die Länge des Balkens (die Höhe der Säule) repräsentiert die (entweder absolute oder relative) Häufigkeit der Ausprägung. Der Informationsgehalt ist damit identisch mit dem einer Tabelle mit absoluten/relativen Häufigkeiten.

Kreisdiagramme

Kreisdiagramme stellen relative Häufigkeiten übersichtlich dar. Der gesamte Kreis stellt 100% der Fälle dar. Für jede Ausprägung wird ein (Torten-)Stück des Kreises in der Größe der relativen Häufigkeit eingezeichnet.

Diagramme für metrische Merkmale

In einem Säulendiagramm können die Säulen auf der x-Achse prinzipiell beliebig platziert werden. Metrische Merkmale lassen sich dagegen auf einer mit einer Skala versehenen Achse abtragen. Die Häufigkeit der verschiedenen Merkmalsausprägungen lassen sich dann auf unterschiedliche Weise darstellen.

Histogramme

Für ein Histogramm wird für einzelne Abschnitte der Merkmalsausprägung ein Rechteck gezeichnet, dessen Fläche der Anzahl der Beobachtungen mit Ausprägungen in diesem Abschnitt entspricht. In der Regel werden Abschnitte mit gleicher Breite gewählt - die Darstellung ähnelt dann einem Säulendiagramm ohne Abstände zwischen den Säulen. Genauso können aber auch unterschiedlich breite Abschnitte gewählt werden. Je nach dem, wie viele Abschnitte eingezeichnet werden wird die Verteilung detaillierter dargestellt oder stärker zusammengefasst.

Dichteplots

Dichteplots stellen eine Möglichkeit dar, die in Histogrammen notwendige Einteilung des Merkmals in einzelne Abschnitte zu vermeiden. Anstelle der Häufigkeiten der Ausprägungen wird das Ergebnis einer komplexeren Berechnung abgetragen, der sogenannte "Kerndichteschätzer". Die Verteilung wird damit als Dichtekurve dargestellt.

Die Dichte ist allgemein definiert als \( Dichte = \frac{relative~Häufigkeit}{Klassenbreite} \). Das heißt, dass Flächen unter einem bestimmten Bereich der Dichtekurve immer der Häufigkeit von Merkmalsausprägungen in diesem Bereich der Verteilung entsprechen. Die Gesamtfläche unter der Kurve ist 1.

Je nach Wahl der genauen Berechnungsart können Kurven entstehen, die mehr oder weniger von den Rohdaten abstrahieren - ähnlich wie im Histogramm unterschiedlich viele Abschnitte abgetragen werden können. Eine "weniger genaue" Abbildung kann den Vorteil haben, die wesentlichen Merkmale der Verteilung herauszustellen, auch wenn Details verloren gehen.

Häufigkeit, relative Häufigkeit und Dichte in Histogrammen

In diesem Abschnitt zeigen wir verschiedene Möglichkeiten, die y-Achse eines Histogramms zu spezifizieren.

Dichtekurven

In diesem Abschnitt zeigen wir, wie Dichtekurven mit unterschiedlichen Kerndichteschätzern berechnet werden.

Um eine Dichtekurve zeichnen zu können, muss für jeden Wert auf der x-Achse ein Dichtewert berechnet werden, der auf der y-Achse abgetragen werden kann. Dies geschieht mit Hilfe sogenannter Kerndichteschätzer (engl. kernels).

Die Idee ist, an Stelle der relativen Häufigkeiten der x-Werte einen (ggf. auf bestimmte Weise gewichteten) Durchschnitt der relativen Häufigkeiten in einem bestimmten Bereich um den entsprechenden x-Wert abzutragen. Die Formel zur Berechnung der Dichte an einer Stützstelle \( x_f \) lautet:

\[ \hat{f}_n (x_f) = \frac{1}{nh} \sum^n_{1=i} K (\frac{x_i-x_f}{h}) \]

Zwei Stellschrauben sind für die Berechnung eines Kerndichteschätzers wichtig:

  • Mit der Bandbreite \( h \) wird festgelegt, welche Werte um \( x_f \) in den Durchschnitt eingehen.
  • Die Kernfunktion \( K \) bestimmt, wie die Werte für den Durchschnitt gewichtet werden

Die folgenden Beispiele illustrieren häufig genutzte Kernfunktionen und die resultierenden Dichtekurven:

Der Begriff Schätzer verweist darauf, dass wir an dieser Stelle über die Deskription der Daten im vorliegenden Datensatz hinausgehen. Kerndichteschätzer wurden entwickelt, um aus den Daten einer Stichprobe auf die Verteilung der Grundgesamtheit zu schließen, aus der die Stichprobe entnommen wurde - wir streifen hier also bereits die Inferenzstatistik!

Wenn Stichprobendaten vorliegen, können wir Dichtekurven als Generalisierung in Bezug auf die Verteilung in der Grundgesamtheit interpretieren. Die Parameter \( h \) und \( K \) sind aus dieser Perspektive so zu wählen, dass stichprobenbedingte Besonderheiten der Verteilung geglättet werden, die grundlegenden Charakteristiken aber herausgestellt werden.

Boxplots

Boxplots (auch Box-and-Whisker-Plots) bilden die Verteilung durch eine grafische Darstellung von Lagemaßen [Link Lagemaße] ab: Eingezeichnet werden als "Box" das 1. und das 3. Quartil und der Median als Linie in dieser Box. Die "Whisker" zeigen an, in welchem Bereich die übrigen Beobachtungen liegen. "Ausreißer"-Werte, die relativ weit von der zentralen Lage der Verteilung entfernt liegen, werden häufig als separate Punkte eingezeichnet, die Whisker reichen dann jeweils bis zur letzten empirisch vorkommenden Beobachtung vor der "Ausreißergrenze".

Wie weit ein Punkt von der zentralen Lage der Verteilung entfernt sein muss, um als "Ausreißer" zu gelten ist keine statistisch beantwortbare Frage, sondern eine prinzipiell willkürliche Entscheidung. Als Konvention werden häufig alle Werte, die weiter als das anderthalbfache des Interquartilsabstands (drittes Quartil - erstes Quartil, also die Länge der Box) über dem dritten Quartil oder unter dem ersten Quartil liegen als Ausreißer bezeichnet.

Plots im Vergleich

plots_im_vergleich.png