Nils Sturma

Lehrstuhl für Mathematische Statistik

Identifizierbarkeit und Inferenz von kausalen Effekten in Modellen mit latenten Variablen

Identifizierung und Quantifizierung von kausalen Beziehungen in beobachteten Daten sind ein zentrales Problem der Statistik. Ein intuitives Werkzeug zur Darstellung kausaler Beziehungen in einer Sammlung von Zufallsvariablen sind gerichtete Graphen. Hier entsprechen Knoten den Variablen und die gerichteten Kanten geben für jede Variable an, von welchen anderen Variablen sie kausal abhängt. Kausale Modelle, die mit gerichteten Graphen assoziiert sind, werden mathematisch durch Strukturgleichungsmodelle formalisiert und sind z. B. in den Sozialwissenschaften, den Wirtschaftswissenschaften oder der Genetik weit verbreitet.

Oft sind nicht für alle Variablen Daten vorhanden. In einem solchen Fall ist es interessant herauszufinden, ob kausale Effekte allein auf Basis der beobachteten Daten eindeutig identifiziert werden können. Zum Beispiel sind in den Sozialwissenschaften Variablen wie "Intelligenz" oder "Kreativität" oft unbeobachtet (d.h. latent), da sie nicht direkt gemessen werden können. Wenn man Gaußsches Rauschen und lineare Abhängigkeiten zwischen den Zufallsvariablen annimmt, entsprechen die linearen Koeffizienten den direkten kausalen Effekten. Ein Effekt ist in einem gegebenen Graphen identifizierbar, wenn der entsprechende Koeffizient eindeutig aus der Kovarianzmatrix der zugehörigen beobachtbaren Verteilung bestimmt werden kann.

In diesem Promotionsprojekt untersuchen wir, welche Effekte in Modellen identifiziert werden können, die explizit latente Variablen aufweisen. Wir verwenden algebraische Methoden, wie z.B. Gröbnerbasen, und wollen einfach zu testende grafische Bedingungen zur Charakterisierung von Identifizierbarkeit entwickeln. Dabei interessieren wir uns ausdrücklich für die Identifizierbarkeit von kausalen Effekten zwischen latenten Variablen. Dies ist in der bisherigen Forschung noch nicht näher untersucht worden. In einem zweiten Schritt studieren wir die statistische Inferenz von kausalen Effekten, indem wir sie auf Basis der Stichproben-Kovarianzmatrix schätzen. Dabei machen wir uns die Tatsache zunutze, dass, wenn eine Identifizierung möglich ist, kausale Effekte durch rationale Funktionen in den Einträgen der Kovarianzmatrix der zugrunde liegenden beobachtbaren Verteilung identifiziert werden. Um die Anwendung unserer Ergebnisse zu erleichtern, beabsichtigen wir Software bereitzustellen, die über Identifizierbarkeit in Modellen mit latenten Variablen entscheidet und konsistente Schätzungen für identifizierbare kausale Effekte liefert.