(Grafische) Darstellung

Einleitung

Tabellen und Diagramme (Grafiken, Plots, Darstellungen ...) geben uns einen Überblick über die Verteilung einer Variable - also, welche unterschiedlichen Werte eine Variable in wie vielen Fällen annimmt.

Ein solcher Überblick ist durch eine direkte Betrachtung der Rohdaten in der Datenmatrix kaum möglich. Mit Kennzahlen zu Lage und Streuung (Lage / zentrale Tendenz, Streuung) können wir die wichtigsten Aspekte der Verteilung einer Variablen erfassen, verlieren aber immer auch Informationen. Tabellarische oder visuelle Darstellungen sind deshalb in jeder Datenanalyse von Bedeutung.

In deskriptive oder explorative Studien kann die detaillierte Darstellung der Verteilung der Variablen ein Hauptziel der Datenanaylse sein. Für weiterführende (bi- oder multivariaten) Analysen können bestimmte Eigenschaften von Verteilungen die Anwendung einzelner Methoden einschränken bzw. erst ermöglichen.

Welche Art der Darstellung wir für eine Verteilung verwenden, hängt vom Skalenniveau [LINK] des Merkmals und der Fragestellung ab.

Mit grafischer und tabellarischer Darstellung können wir beispielsweise die folgenden Fragen beantworten:

  • Welche Werte nimmt ein Merkmal wie häufig an?
  • Gibt es typische Werte? Gibt es Ausreißer?
  • Welche Form hat eine Verteilung (z.B. über alle Ausprägungen bzw. den gesamten Wertebereich gleichmäßig verteilt, besonders viele Werte in einem bestimmten Teil des Wertebereichs, etc.)?

Tabellen

Merkmale mit wenigen Ausprägung

Tabellen lassen sich für Merkmale jeden Skalenniveaus erstellen. Für jede Ausprägung wird die beobachtete Häufigkeit aufgelistet. Oft werden neben absoluten Häufigkeiten auch Prozentwerte oder relative Häufigkeiten (bezogen auf die Anzahl aller Fälle) angegeben.

Wenn eine Rangordnung der Merkmale vorliegt (also ab ordinalskalierten Merkmalen) können zusätzlich auch kumulierte Anteile eingetragen werden, die für jede Ausprägung angeben, welcher Anteil der Fälle diese Ausprägung oder eine kleinere annimmt.

Merkmale mit (zu) vielen Ausprägungen

Wenn ein Merkmal sehr viele Ausprägungen ausweist werden solche Tabellen schnell unübersichtlich und wenig informativ, weil im Extremfall jede bestimmte Ausprägung nur noch einmal vorkommt. Häufig taucht dieses Problem bei metrischen Variablen auf. Für solche Merkmale müssen die Werte zunächst gruppiert (kategorisiert) werden, so dass die beobachteten Häufigkeiten für jede Kategorie aufgeführt werden können. Natürlich geht damit immer auch ein Informationsverlust einher.

Tabellarische Darstellung von Mehrfachnennungen

Diagramme für nominale und ordinale Merkmale

Balken- und Säulendiagramme

Nominale und ordinale Merkmale lassen sich grafisch mit Balken- bzw. Säulendiagrammen und Kreisdiagrammen darstellen. Für Balken-/Säulendiagramme wird für jede Ausprägung ein Balken/eine Säule eingezeichnet. Die Höhe des Balkens/der Säule repräsentiert die (absolute oder relative) Häufigkeit der Ausprägung.

Kreisdiagramme

Kreisdiagramme stellen relative Häufigkeiten dar. Der gesamte Kreis stellt 100% der Fälle dar. Für jede Ausprägung wird ein (Torten-)Stück des Kreises in der Größe der relativen Häufigkeit erzeugt.

Diagramme für metrische Merkmale

Histogramme und Dichtekurve

Als Unterpunkte:

  • Histogramme
  • Dichtekurven
  • Bevölkerungspyramide (kennt man, ist eigentlich nichts anderes)

Boxplots

als unterpunkt auch: beeswarm-plots/"univariate Scatterplots"