Quantitative Forschungsdesigns

Quantitative Forschungsdesigns

Der quantitative Forschungsprozess

Quantitative Forschung zeichnet sich durch die Verwendung standardisierter, meist numerischer Daten unter dem Paradigma des kritischen Rationalismus aus. Idealtypisch folgt der Forschungsprozess dabei einem linearen Prozess.

Forschungsziele quantitativer Forschung

Erklärung

Wie der idealtypische Forschugsprozess zeigt, ist die Suche nach Ursachen und allgemeinen Gesetzmäßigkeiten zur Erklärung untersuchter Phänomene fest im Paradigma des kritischen Rationalismus verankert. Auf Theorie-Ebene muss eine mögliche (kausale, probabilistische) Gesetzmäßigkeit gefunden werden, die das zu erklärende Phänomen erklären könnte. Aus dieser Theorie sind deduktiv eine oder mehrere empirisch prüfbare Hypothesen abzuleiten. Nach Durchführung der empirischen Untersuchung kann die Hypothese entweder falsifiziert werden -- dann muss eine andere Erklärung gesucht werden -- oder sie kann vorläufig beibehalten werden.

Erklären heißt hier also, kausale Ursachen nachzuweisen und zu zeigen, wie aus diesen und bestimmten Randbedingungen das zu erklärende Phänomen entsteht.

Die zu erklärenden Phänomene sind meist multikausal und ergeben sich aus einem Zusammenspiel mehrerer Ursachen.

Erklärungen für den Bildungserfolg einer Schülerin könnten in ihren individuellen Anlagen, der schulischen Unterstützung in der Familie, der Bildungsaspiration der Erziehungsberechtigten, der Motivation der Lehrer:innen, regelmäßig stattfindendem Sportunterricht, der finanziellen Ausstattung der Schulen und vielen anderen Faktoren liegen.

Nicht immer kann Forschung alle Ursachen untersuchen, die in diesem Prozess zusammenwirken. Man spricht dann von partiellen Erklärungen. Der Begriff ist alles andere als abwertend zu verstehen: Zeigen zu können, dass eine Ursache einen kausalen Beitrag für das zu Erklärende leistet kann einen wesentlichen Erkenntnisfortschritt darstellen.

Nehmen wir an, wir untersuchen (nur) die Hypothese, dass regelmäßiger Sportunterricht eine kausale Ursache ist, dass also Schüler:innen bessere schulische Leistungen erzielen, wenn sie in der Schule Sportunterricht erhalten. Wenn wir gut absichern können, dass diese Hypothese empirisch gestützt wird, sollte das ein wichtiger Hinweis an z.B. die Schulpolitik sein, für regelmäßig stattfindenden Sportunterricht zu sorgen (bzw.: könnten wir die Hypothese falsifizieren, sollte die Unterrichtszeit besser anders genutzt werden). Ob und in welchem Ausmaß auch andere Ursachen einen Einfluss auf den schulischen Erfolg haben, ist für die praktische Bedeutsamkeit Schlussfolgerungen zunächst egal -- wir hätten guten Grund zu der Annahme, dass sich schulische Leistungen durch angebotenen Sportunterricht verbessern lassen.

Deskription und Exploration

Streng ausgelegt muss Forschung im kritischen Rationalismus immer erklärend angelegt sein. Mit quantitativen Methoden zur Datenerhebung und Datenanalyse können aber auch deskriptive Forschungsziele verfolgt werden.

Auch in einem solchen Fall folgt die Forschung dem skizzierten Forschungsprozess. Das Ableiten von Hypothesen zur Theorieprüfung entfällt offensichtlich. Übernommen wird aber ausdrücklich der bei der Theorie beginnende Forschungsprozess.

Zur Bedeutung von Theorie in deskriptiven quantitativen Studien

Warum ist Theorie-Arbeit für deskriptive Studien hier genauso wichtig wie für theorieprüfende Studien?

Der deduktive, bei einer Theorie beginnende Ansatz ist hier ganz zwangsläufig notwendig, da ohne eine Theorie das quantitative Vorgehen schlicht nicht umsetzbar wäre. Ohne theoretische Begriffe ("Konzepte", "Konstrukte") würde uns der Ausgangspunkt fehlen, von dem aus die Entwicklung von Messinstrumenten (für diese Begriffe) erst möglich wird. Die Theorie gibt uns sozusagen erst vor, wonach wir in der Empirie Ausschau halten sollen, anhand welcher Merkmale die Beschreibung des Phänomenbereichs gelingen kann.

Concepts are the building blocks of scientific reasoning, and of human cognition in general. They are essential for core scientific activities such as theory formation, description, categorization, and causal inference. What’s more, they are indispensable for fundamental cognitive tasks, such as the formation of memories, the use of language, and learning.

To think is to use concepts, in science as in daily life. (Toshkov 2016: 84)

Dazu können explizit auch theoretische Annahmen über Zusammenhänge zwischen Merkmalen gehören, und die bei der Beschreibung berücksichtigt werden sollten.

Der Unterschied zwischen Deskription und Exploration besteht im quantitativen Bereich in erster Linie in der Anzahl der in den Blick genommenen Merkmale und Zusammenhänge. Bei einer Deskription werden wir in der Regel recht genau wissen, was die relevanten Merkmale zur Beschreibung der Untersuchungsgesamtheit sind (und welche Zusammenhänge theoretisch so bedeutsam sind, dass sie Teil der Beschreibung sein sollten). Bei einer Exploration werden wir deutlich mehr Merkmale in den Blick nehmen und ggf. erst nach Abschluss der Analyse feststellen können, welche Merkmale und Zusammenhänge im explorierten Fall von empirischer Bedeutsamkeit sind.

Soll eine größere Personengruppe ("alle Einwohner von..." u.ä.) beschrieben werden, muss zwangsläufig auf ein quantitatives Verfahren mit standardisierten Messinstrumenten zurückgegriffen werden. Aussagen über Häufigkeiten, Verteilungen und damit eben auch über die Bedeutsamkeit bestimmter Merkmale lassen sich nur auf quantitativer Basis treffen. Auch Generalisierungen über die konkret beforschten Untersuchungseinheiten hinaus sind (etwa auf die Grundgesamtheit, aus der die untersuchte Stichprobe gezogen wurde) sind nur mit quantitativen (inferenzstatistischen) Mitteln möglich.

Messen

Egal ob erklärend oder beschreibend geforscht wird: das Erstellen und Anwenden eines Messinstruments ist fest im Zentrum der quantitativen Methodologie verankert.

In der Empirie entspricht jedem theoretischen Begriff eine Variable, d.h. ein Merkmal, das bei unterschiedlichen Objekten/Personen unterschiedliche Merkmalsausprägungen annehmen kann.

Die Variable "Sportunterricht wird angeboten" nimmt für jede Schulklasse (und auch für jede:n Schüler:in der Klasse) eine Ausprägung an. Ausprägungen könnten z.B. ja"/"nein" sein.

Die Variable "schulischer Erfolg" nimmt für jede:n Schüler:in eine bestimmte Ausprägung zwischen "gar kein Erfolg" und (so etwas wie) "maximaler Erfolg" an.

Das erste Beispiel (Sportunterricht) ist mehr oder weniger direkt beobachbar - es sollte relativ leicht sein (bspw. durch einen Blick in den Lehrplan) für eine Klasse festzuhalten, ob Sportunterricht angeboten wird oder nicht. Wir sprechen in einem solchen Fall von manifesten Variablen.

Der Name und die vorgeschlagenen Ausprägungen der zweiten Variable (schulischer Erfolg) entsprechen dem aufgestellten theoretischen Konstrukt (... vermutlich, wir haben es ja nicht im Detail hergeleitet...) recht genau. Hier ist allerdings noch nicht offensichtlich, wie wir die Merkmalsausprägungen einzelner Schüler:innen empirisch festmachen können. Eine solche Variable bezeichnen wir als latente Variable: Wir haben ein theoretisch klar definiertes Konstrukt und die Vorstellung, dass jeder Beobachtungseinheit genau eine bestimmte Ausprägung zugeordnet werden kann, die Ausprägung kann aber nicht direkt beobachtet werden.

In beiden Fällen entsteht durch die Merkmalsausprägungen ein empirisches Relativ zwischen den Schüler:innen: Schüler A und Schülerin B haben beide Sportunterricht; Schüler C hat anders als Schüler A keinen Sportunterricht. Schüler A erzielt höhere schulische Leistungen als Schülerin B. Schülerin B erzielt höhere Leistungen als Schüler C, usw.

Mit einer Messung soll das empirische Relativ in ein numerisches Relativ überführt werden, wobei die im empirischen Relativ bestehenden Beziehungen in den Beziehungen zwischen den verwendeten Zahlen widergespiegelt werden soll. "Ja" und "Nein" könnten durch 0 und 1 (oder beliebige andere Zahlen) ausgedrückt werden, und als Beziehung zwischen den Zahlen wir würden hier nur gleich/ungleich berücksichtigen (nominales Messniveau). Die schulische Leistung muss mit Zahlen gemessen werden, die mindestens die Rangfolge zwischen den Schüler:innen erhalten (ordinales Messniveau) oder die, besser noch, auch die Leistungsabstände ausdrücken (metrisches Messniveau).

Um zu einem Messinstrument zu gelangen, mit dem das möglich ist, müssen wir den theoretischen Begriff operationalisieren.

Operationalisierung

Als Grundlage für eine gelungene Operationalisierung muss eine Konzeptspezifikation vorliegen. Dazu gehört

  • eine Nominaldefinition, in der versucht wird den Bedeutungsgehalt des Konstrukts zu erläutern
  • ggf. eine Analyse der Begriffsverwendung in der Forschungsliteratur: Besteht Einigkeit über die Bedeutung des Begriff, oder verwenden verschiedene Autoren den Begriff mit abweichenden Bedeutungsgehalten? Wie soll der begriff dann in der vorliegenden Forschung definiert werden?
  • eine Dimensionalitätsanalyse: theoretische Begriffe umfassen häufig mehrere Dimensionen. Für "Schulische Leistung" müsste etwa definiert werden, welche Fächer hier zu berücksichtigen sind, oder inwieweit allgemeine Problemlösungskompetenzen o.ä. in der Feststellung der schulischen Leistung einer Person eine Rolle spielen sollen.

Die Operationalisierung selbst ist nun eine Angabe aller Operationen, die von Forschenden durchgeführt werden müssen, um den Messwert für eine Untersuchungseinheit festzustellen.

Dazu müssen Indikatoren festgelegt werden, an denen das Vorliegen einer bestimmten Merkmalsausprägung festgemacht werden könnte.

Schon am einfachen Beispiel "Sportunterricht" kann gezeigt werden, dass dieser Zwischenschritt der Indikatoren-Wahl nicht trivial ist. Als Indikatoren könnten wir z.B. heranziehen:

  • tabellarische Auskünfte zum Sportunterricht einzelner Klassen, zB Schulweise von Schulsekretariaten erstellt
  • Befragung der Schüler:innen: "Steht Sportunterricht auf deinem Stundenplan?"

Wir würden vermutlich keine großen Abweichungen erwarten -- aber es scheint doch durchaus vorstellbar, dass Messungen mit den beiden Indikatoren in Einzelfällen zu abweichenden Ergebnissen führen würden.

Für eine latente Variable wie die schulische Leistung ist die Suche nach Indikatoren ggf aufwändiger, aber auch offensichtlicher notwendig. Mögliche Indikatoren könnten sein

  • Noten in Klassenarbeiten oder Abschlusszeugnissen
  • Ergebnisse von speziell konstruierten Tests (z.B. Lernstandserhebungen wie PISA)
  • Einschätzungen der Lehrkraft zur schulischen Leistung der einzelnen Schüler:innen

Welche Art von Indikator hier vorzuziehen wäre, wäre nicht zuletzt aus der detaillierten Konzeptspezifikation heraus zu begründen.

Für eine vollständige Operationalisierung sollte dann auch angegeben werden, wie diese Indikatoren im Detail zu erheben sind -- dazu gehören z.B. in einer Befragung die genauen Frageformulierungen, Angaben dazu, wie die Antworten in Zahlen umzuwandeln sind usw.

Forschungsdesign

Gehen wir von der einfachsten kausalen Beziehung aus, die wir in einer Hypothese formulieren können:

X --> Y (Sportunterricht --> schulische Leistung)

Alle Überlegungen zu quantitativen Forschungsdesigns resultieren aus der Frage, wie wir Evidenz dafür finden können das X Y kausal beeinflusst beeinflusst.

Wir unterscheiden zwei Ansätze:

  • Experimentelle Designs
  • Ex-Post-Facto-Designs

Die beiden Ansätze unterscheiden sich darin, wie das grundständige Problem der Kausalanalyse "gelöst" wird: dass nämlich Kausalität immer kontrafaktisch ist.

Kontrafaktische Kausalität

Wenn wir sagen dass X Y kausal beeinflusst, ist damit immer einer kontrafaktische Vorstellung verbunden. Beispielsweise würden wir davon sprechen, dass eine Kopfschmerztablette einen "wirkt", wenn

  • die Kopfschmerzen verschwinden, nachdem eine Person die Tablette genommen hat, UND
  • die Kopfschmerzen nicht verschwunden wären, wenn die Person die Tablette nicht genommen hätte.

Das Problem: Wir können nie beide Zustände beobachten, denn entweder wird die Tablette eingenommen oder nicht. Das Was-Wäre-Wenn bleibt unbeobachtet: Der individuelle kausale Effekt kann niemals beobachtet werden. Unsere Untersuchungen müssen sich immer in irgendeiner Form auf eine Gruppenvergleich stützen. Experimentelle und Ex-Post-Facto-Designs unterscheiden sich darin, wie die verwendeten Vergleichsgruppen gebildet werden.

Randomisierte Experimente

Das grundlegende Prinzip experimenteller Forschung ist, die vermutete Ursache X nicht zu beobachten, sondern von den Forschenden kontrolliert zu manipulieren, zu "setzen".

Zur Operationalisierung von X wird also kein Messinstrument entwickelt, sondern ein Treatment entwickelt, mit dem X manipuliert wird (bzw. mehrere Treatments, die die unterschiedlichen Ausprägungen von X operationalisieren). Die laut Hypothese kausal beeinflusste Variable Y wird hier meist als "Outcome" bezeichnet und wie in einer nicht-experimentellen Studie gemessen. Wer welches Treatment erhält, also welcher Ausprägung von X "ausgesetzt" wird, wird von den Forschenden bestimmt. Anders gesagt: die Vergleichsgruppen werden von den Forschenden gebildet.

In einem "echten", randomisierten Experiment erfolgt die Zuteilung von Versuchspersonen auf die Treatment-Gruppen nach einem Zufallsverfahren. Dadurch ist sichergestellt, dass sich die Zusammensetzung der Gruppen in Bezug auf alle denkbaren, beobachtbaren wie unbeobachtbaren Merkmale nur im Rahmen des Zufallsfehlers unterscheiden - und das zu erwartende Ausmaß eines solchen Zufallsfehlers kann mit inferenzstatistischen Mitteln berechnet werden.

Können nach dem Treatment Unterschiede im Outcome beobachtet werden, die über den erwartbaren Zufallsfehler hinausgehen, kann dieser Unterschied nur aus den unterschiedlichen Treatments resultieren (denn alle anderen Variablen sind durch die Zufallszuteilung gleichgehalten worden). Damit wäre der Nachweis gelungen, dass X einen kausalen Effekt auf Y hat.

Quasi-Experimente

In manchen Situationen ist es nicht möglich, Gruppen durch eine Zufallszuteilung der Versuchspersonen zu Treamtments zu bilden, aber mit bereits existierenden Gruppen zu arbeiten.

In einem solchen Fall sprechen wir von einem Quasi-Experiment. Die Forschenden behalten hier die volle Kontrolle über die Art des Treatments. Die Zusammensetzung der Gruppen entzieht sich hier jedoch der Kontrolle.

In Quasi-Experimenten sollten wenn möglich Versuchspläne mit Vorher-Messung verwendet werden, da sonst nicht ausgeschlossen werden kann, dass gefundene Unterschiede unabhängig vom experimentellen Treatment in den Gruppen bereits bestanden haben. Zusätzlich sollten mögliche Selektionsprozesse in die Gruppen bedacht werden: Nach welchen Kriterien oder Mechanismen haben sich die als Vergleichsgruppen genutzen (Personen-)Gruppen ursprünglich gebildet? Gibt es Grund zur Annahme, dass diese Kriterien mit unserer Outcome-Variable korrellieren?

Nehmen wir an, wir wollen die Sportunterrichts-Hypothese experimentell untersuchen, müssen dazu aber auf zwei bereits gebildete Klassen zurückgreifen. Wir können entscheiden, welche der beiden Klasse Sportunterricht bekommt und welche nicht (ethische Überlegungen außen vor gelassen...), aber nicht, welche Schüler:innen in welche Klassen gehen. Hier wäre zu überlegen, ob schulisch leistungsstärkere Kinder aus bestimmten Gründen entweder der einen oder anderen Klasse zugeteilt wurden, wodurch der Gruppenvergleich verzerrt werden könnte.

Natürliche Experimente

Die experimentelle Methode stößt dort an Ihre Grenzen, wo Ursachen untersucht werden sollen, die von Forschenden nicht manipuliert werden können (oder nicht manipuliert werden sollten). In manchen Fällen ergeben sich für solche Ursachen aber Untersuchungsgelegenheiten, indem forschungsunabhängige Ereignisse für eine "Manipulation" der zu untersuchenden Ursache führen. Forschende müssen dann nur schnell genug reagieren und die interessierenden Outcomes messen. Wir sprechen dann von natürlichen Experimenten.

In unserem Beispiel könnte ein solches "externes Ereignis" vorliegen wenn wir erfahren, dass an einzelnen Schulen der Sportunterricht für einen längeren Zeitraum ausfällt, weil z.B. die Sporthalle nicht nutzbar ist. Ein solches Ereignis würde eine experimentelle Untersuchung ermöglichen, auch wenn wir etwa aus ethischen Überlegungen davon Abstand nehmen müssten, Schüler:innen den Sprotunterricht für Forschungszwecke zu streichen

Ex-post-facto Designs

Wie können kausale Ursachen untersucht werden, wenn sich die als Ursache vermutetet Variable nicht manipulieren lässt? Gerade in Sozial- und Humanwissenschaftlichen Forschungsfeldern stoßen wir schnell auf Variablen, für eine Manipulation rein technisch ausgeschlossen ist (Geschlecht, Alter, ...) oder ethisch/moralisch nicht vertretbar wäre (Krankheit, Einstellungen, Bildung, Kriminalitätserfahrung, ...).

Hier bleibt uns in der Regel nur der Ansatz, die jeweilige Ausprägung auch der X-Merkmale bei einzelnen Personen ex-post-facto zu beobachten, also nachdem das "Treatment" aufgetreten ist. Anders gesagt: Wir bilden hier nicht zuerst Vergleichsgruppen, die wir dann dem Treatment aussetzen, sondern ordnen die Versuchspersonen erst im Nachhinein den Gruppen zu, abhängig davon, welches Treatment sie erfahren haben. Die Vergleichsgruppen unterscheiden sich dadurch in vielen Merkmalen, nicht nur in der uns interessierenden Variable, etwa durch:

  • Selektionseffekte "in das Treatment"
  • Konfundierende Variablen (Drittvariablen)

Ex-post-facto-Designs müssen daher Wege finden, die interessierende Ursache zu "isolieren", also mögliche Alternativerklärungen so gut es geht auszuschließen. Sie können sich dabei einem Kausalitätsnachweis wie er mit einem randomisierten Experiment gelingt immer nur annähern.

Voraussetzungen für einen kausalen Zusammenhang

Ein kausaler Zusammenhang kann angenommen werden, wenn

1) ein statistischer Zusammenhang zwischen X und Y beobachtet werden kann 2) die zeitliche Reihenfolge bekannt ist: X muss vor Y eingetreten sein 3) der statistische Zusammenhang auch nach Ausschluss möglicher Alternativerklärungen durch konfundierende Variablen besteht.

In der Praxis werden wir nie alle denkbaren Alternativerklärungen ausschließen können.

Varianten von Ex-post-facto Designs

Querschnittsdesign

Ein Querschnittsdesign liegt beispielsweise vor, wenn alle untersuchten Variablen mit einer Befragung für einen Zeitpunkt erhoben werden.

Die zeitliche Reihenfolge ist dann nicht eindeutig festgelegt und kann nur angenommen werden.

Trend-Design In einem Trend-Design werden gleichen Variablen mit identischen Messinstrumenten zu mehreren Zeitpunkten erhoben, allerdings für jeweils unterschiedliche Stichproben von Personen/Objekten aus der beforschten Grundgesamtheit.

Damit werden Aussagen über zeitliche Veränderungen im Aggregat möglich.

Panel-Design In einem Panel-Design werden die gleichen Variablen mit den gleichen Messinstrumenten zu verschiedenen Zeitpunkten bei den gleichen Personen/Objekten erhoben. Dieses Vorgehen hat viele Vorteile:

  • die zeitliche Reihenfolge der Variablen ist bekannt (wir können Unterschiede in Y zum Zeitpunkt t2 untersuchen für Personen die zum Zeitpunkt t1 eine bestimmte Ausprägung von X erfahren haben oder nicht)
  • es ist möglich, individuelle Veränderungen zu beobachten
  • bei der Begtrachtung individueller Veränderungen sind alle möglicherweise unebobachteten, zeitkonstanten Variablen auf Personen-Ebene automatisch kontrolliert.

Diese Vorteile gehen allerdings auch mit einigen methodischen Nachteilen einher:

  • Panelmortalität: Gerade wenn die Teilnahme an der Studie für die Untersuchungspersonen mit einem größeren Aufwand verunden ist muss mit großen (und höchstwahrscheinlich systematischen) Ausfällen von Personen in späteren Erhebungszeitpunkten gerechnet werden. Wenn die Drop-Out-Gründe mit den untersuchten Variablen zusammenhängen führt dies zu Verzerrungen der Ergebnisse.

  • Paneleffekte: Werden Personen beforscht, kommen die schon bei experimentellen Designs angerissenen Lerneffekte u.ä. zum tragen, je nach Häufigkeit der Wiederholungsmessungen im Panel deutlich verstärkt.

  • Repräsentativität: Wird für das Panel eine Stichprobe befragt, um Rückschlüsse auf eine dahinterstehende Grundgesamtheit zu ziehen, kann diese Grundgesamtheit "im Hintergrund" zeitlichen Veränderungen unterworfen sein, so dass die Stichprobe die Grundgesamtheit mit der Zeit nicht mehr ausreichend abbildet. Aus diesem Grund sind Trendstudien dort zu bevorzugen, wo z.B. gesellschaftliche Veränderungen abgebildet werden sollen.

Analyse-Methoden für Ex-post-facto-Daten

Während in experimentellen Designs der Fokus auf der Konstruktion passender Treatments und der Herstellung möglichst vergleichbarer experimenteller Situationen für alle Versuchsgruppen liegen muss, ist in Ex-post-facto-Designs die Art der Datenanalyse deutlich bedeutsamer, wenn es darum geht Kausalitätsaussagen in den Ergebnissen möglichst gut abzusichern.

Der folgende Überblick soll aufzeigen, wie vielfältig die methodischen Ansätze auf Ebene der Datenanalyse aussehen können.

Regressionsmodelle: Drittvariablenkontrolle

Mit Regressionsmodellen lassen sich Mittelwertunterschiede einer abhängigen Variable Y für unterschiedliche Merkmalsausprägungen einer Variable X beschreiben. Zwischen zwei metrischen Variablen lassen sich lineare, aber auch komplexere nicht-lineare Zusammenhänge abbilden. Liegt eine kategoriale (nominalskalierte) oder dichotome X-Variable vor ("Sportunterricht ja/nein"), kann im Rahmen eines Regressionsmodells auch ein Gruppen-Mittelwertunterschied abgebildet werden.

Regressionsmodelle sind zur Analyse von Ex-post-facto-Daten weit verbreitet, weil sie im multivariaten Fall (mit mehreren erklärenden Variablen im Modell) ermöglichen, Effekte von "Drittvariablen" zu berücksichtigen. Mit einem multivariaten Regressionsmodell kann der partielle Effekt von X auf Y unter Kontrolle dritter Variablen abgebildet werden. Mit einem solchen Analyseansatz lässt sich das kausale Argument zumindest gegen konkurrierende Erklärungen durch bekannte und messbare Drittvariablen absichern.

Übersehen wir in einem regressionsanalytischen Ansatz eine bedeutsame Drittvariable (oder ist es nicht möglich diese zu messen) resultiert der "omitted variable bias" in einer möglichen Überschätzung des Zusammenhangs von X und Y.

Nicht kontrollierte Drittvariablen verzerren dann den Einfluss von X auf Y, wenn die dritte Variable Z sowohl mit Y als auch mit Z korreliert. In unserem Sportunterrichts-Beispiel könnte eine Z-Variable etwa die finanzielle Ausstattung der Schulen sein. Diese könnte einen eigenständigen Effekt auf die schulischen Leistungen ausüben (Schüler:innen an "reicheren" Schulen haben bessere Leistungen), aber auch (mit)beeinflussen, ob an der Schule Sportunterricht angeboten werden kann. Berücksichtigen wir nun die finanzielle Ausstattung in einem Analysemodell nicht, würde ihr Effekt auf die Leistung - aufgrund der Korrelation mit der Sportunterrichts-Variable - fälschlicherweise als Effekt des Sportunterricht abgebildet.

Panel-Modelle

Mit sogenannten cross-lagged panel models lässt sich die zeitliche Struktur der Effekte zwischen X und Y abbilden. Die Grafik zeigt einen einfachen Fall mit zwei Zeitpunkten. Liegt eine kausale Beziehung vor sollte der diagonal eingezeichnete Zusammenhang zwischen X zu t1 und Y zu t2 empirisch vorliegen, während der (hier vertikale) Zusammenhang zwischen X zu t1 und Y zu t1 nicht stark ausgeprägt sein sollte - Y sollte sich erst ändern, nachdem eine Veränderung in X eingetreten ist.

Instrumentvariablenschätzer

Mit sogenanten IV-Schätzern wird versucht, das Problem des omitted variable bias unbeobachteter Variablen zu lösen. Dazu muss eine sogenannte "Instrumentvariable" gefunden werden, die zwei Eigenschaften aufweisen muss:

1) die IV korrelliert mit X 2) die IV korrelliert nicht mit dem Residualfehler (d.h., mit dem durch das Modell unerklärten Teil der Varianz von Y), oder vereinfacht: sie korrelliert nicht mit Y (was inhaltlich bzw. durch plausible Annahmen begründet werden muss)

Mit Hilfe einer solchen Variable kann der Teil der Varianz von X geschätzt werden, der nicht mit dem Fehlerterm korrelliert ist. Damit ermöglicht die IV eine Schätzung des Effekts von X auf Y.

(Propensity Score) Matching

Matching-Verfahren versuchen, die experimentellen Idee des Vergleichs von Gruppen, die sich in nichts anderem als der Ausprägung von X unterscheiden, nachzubilden. Um solche Gruppen aus ex-post-facto-Daten zu gewinnen sind verschiedene Verfahren vorgeschlagen worden. Die Grundidee ist immer, Paare von möglichst ähnlichen Objekten/Personen zu bilden, die sich in möglichst vielen Eigenschaften ähnlich/gleich sind, und nur in X unterscheiden.

Dabei auf eine bestimmte Menge "gleichzuhaltender" Variablen zu blicken entspricht allerdings zunächst logisch nur einer Drittvariablenkontrolle und bietet keinen großen Mehrwert. Im Propensity Score Matching werden die Vergleichsgruppen daher etwas anders gebildet:

Der sogenannte propensity score ist die vorhergesagte Wahrscheinlichkeit einer Untersuchungseinheit, die X-Ausprägung zu besitzen, die dem "Treatment" entspricht. Diese Wahrscheinlichkeit kann z.B. aus anderen beobachteten Variablen regressionsanalytisch bestimmt werden. Die eigentliche Aufteilung auf "Treatment-" und "Kontrollgruppe" erfolgt dann durch einen Matching-Algorithmus anhand dieses propensity scores.