Nachdem wir kurz erläutert haben, wie man Zusammenhänge graphisch veranschaulichen kann, soll nun das eigentliche Modell vorgestellt werden, mit dem anschließend Berechnungen durchgeführt werden können. Es handelt sich dabei um das kontrafaktische Modell. Wie der Name bereits sagt betrachtet man dabei Zustände, die so nicht realisiert werden, es handelt sich sozusagen um ein Gedankenexperiment. Diese Grundannahme ist recht alt, mathematisch konkretisiert wurde es jedoch erst in den letzten 50 Jahren. Das Modell fragt dabei immer, wie sich ein Ergebnis verändert hätte, wenn ein anderer Zustand eingetroffen wäre. Beispiel: wir wissen, dass Person A im Jahre 2010 geheiratet hat. Wir können nun das Zufriedenheitslevel dieser Person messen. Nun fragen wir: wie hoch wäre die Zufriedenheit dieser Person heute, wenn sie 2010 nicht geheiratet hätte? Wir interessieren uns also für einen Zustand, der nicht tatsächlich eingetroffen ist. Wäre es möglich, die Vergangenheit zu beeinflussen und die Heirat zu verhindern, so könnten wir den Zufriedenheitswert heute erheben und vergleichen. Würden wir feststellen, dass die Person im Modell mit der Heirat einen höheren Zufriedenheitswert hätte, so könnte man aussagen, dass die Heirat für die höhere Zufriedenheit verantwortlich ist (unter der Annahme, dass sich ansonsten keine Bedingungen verändert haben). Wie man feststellt, ist ein solches Vorgehen in der Realität nicht möglich, da eben eine Person nur immer einen Zustand realisieren kann und niemals mehrere. Wir haben also ein Missing Data Problem. Jedoch ist es möglich dieses Problem zu umgehen, wenn man nicht eine, sondern viele Personen untersucht. Dann lassen sich mit statistischen Methoden kausale Effekte berechnen. Die folgenden Beispiele wollen wir möglichst simpel halten. Wir nehmen an, dass es zwei Variablen gibt, wobei die eine die andere kausal Beeinflussen soll. Aus historischen Gründen nennen wir die verursachende Variable D und die beeinflusste Variable Y. Formal:

D --> Y

D soll eine Variable mit nur zwei Ausprägungen, also dichotom sein. Alle Fragen, die man mit Ja oder Nein beantworten kann, lassen sich etwa so anwenden: ist eine Person verheiratet? Besucht eine Person eine Fortbildung? Nimmt eine Person ein Medikament ein? Man nennt D auch Treatment-Variable, da sie angibt, ob eine Person ein Treatment, also eine gewisse Behandlung erfährt oder nicht. Wird das Treatment "gegeben", so erhält die Variable den Wert 1, ansonsten den Wert 0. Die Y-Variable nennt man auch Outcome-Variable. Sie wird meistens als metrisiert betrachtet und gibt das Ergebnis der Behandlung an. Beispielsweise kann dies das Zufriedenheitslevel sein, das Einkommen oder eine andere stetige Variable. Für die Outcomevariable werden ebenfalls zwei Zustände unterschieden: das Outcome mit dem Treatment (Y1) und das Outcome ohne das Treatment (Y0). Folgt man diesem Schema, kann man eine Vier-Felder-Tafel aufstellen:

  Y0
Y1
D = 0 Beobachtbar Kontrafaktisch
D = 1 Kontrafaktisch Beobachtbar

Deutlich wird dabei, dass es immer zwei Möglichkeiten gibt, die realisiert werden können und weitere zwei, die nicht realisiert werden können. Zur besseren Veranschaulichung ein Beispiel:

Y0 Y1
Heirat = Nein Wie hoch ist die Zufriedenheit einer nicht verheirateten Person? Wie hoch wäre die Zufriedenheit einer nicht verheirateten Person, wenn sie geheiratet hätte?
Heirat = Ja Wie hoch wäre die Zufriedenheit einer verheirateten Person, wenn sie nicht geheiratet hätte? Wie hoch ist die Zufriedenheit einer verheirateten Person?

Für eine Person i kann man also stets nur jeweils einen Zustand beobachten, aber niemals beide gleichzeitig. Man kann eben nicht gleichzeitig verheiratet sein auch nicht. Es ist demnach nicht ausreichend, nur eine einzige Person zu betrachten, da man so immer fehlende Werte haben wird. Das Konzept des kontrafaktischen Modells beruht nun darauf, viele Personen zu betrachten und die Effekte durch statistische Methoden berechnen zu können. Die tatsächliche Vorgehensweise hängt dann von den verfügbaren Daten ab, beispielsweise, ob man Querschnitts- oder Längsschnittdaten benutzt. Theoretisch kann man jedoch viele Effekte definieren, die dann in allen Anwendungen benutzt werden können. Dazu zählt beispielsweise der individuale Kausaleffekt, also der Effekt eines Treatments für eine bestimmte Person i. Dieser Wert ist definiert als δi=Yi1-Yi0. Wie bereits bemerkt ist dieser Wert jedoch nicht berechenbar, da immer einer der Outcomewerte fehlen wird.