Machine Learning Goes Causal II: Der kausale Bruder des Random Forests


Bei STATWORX sind wir begeistert, dass sich in den letzten Jahren ein vielversprechendes neues Feld im Bereich des Machine Learning entwickelt hat: Causal Machine Learning. Kurz gesagt, geht es bei Causal Machine Learning um die wissenschaftliche Untersuchung von Machine-Learning-Algorithmen zur Schätzung kausaler Effekte. In den letzten Jahren wurden verschiedene Causal Machine Learning Algorithmen entwickelt, die Fortschritte aus dem klassischen Machine Learning mit der Theorie der kausalen Inferenz kombinieren, um unterschiedliche Arten kausaler Effekte zu schätzen. Mein Kollege Markus hat einige dieser Algorithmen bereits in einem früheren Blogbeitrag vorgestellt.
Da Causal Machine Learning ein recht komplexes Thema ist, werde ich eine Blogpost-Serie schreiben, um schrittweise in diese faszinierende neue Welt der Data Science einzutauchen. In meinem ersten Blogpost habe ich eine Einführung gegeben, mit dem Fokus darauf, was Causal Machine Learning ist und warum es praktisch und zukunftsorientiert relevant ist. In diesem zweiten Beitrag stelle ich den sogenannten Causal Forest vor – einen der populärsten Causal Machine Learning Algorithmen zur Schätzung heterogener Behandlungseffekte.
Warum heterogene Behandlungseffekte?
Beim Causal Forest geht es darum, die Heterogenität von Behandlungseffekten zu schätzen. Wie bereits im letzten Beitrag erklärt, beschreibt ein Behandlungseffekt den kausalen Einfluss einer Intervention auf eine Zielgröße – z. B. den Effekt eines geförderten Trainingsprogramms auf das Einkommen. Da individuelle Behandlungseffekte nicht beobachtbar sind, konzentriert sich die Praxis auf unverzerrte Durchschnittsschätzungen dieser Effekte. Der bekannteste davon ist der Average Treatment Effect (ATE), also der Mittelwert über alle individuellen Effekte in der Population. Aber manchmal unterscheiden sich diese Effekte stark zwischen Subgruppen – größer oder kleiner als der Durchschnitt. Genau dann wird es spannend, diese heterogenen Effekte zu schätzen.
„In den meisten Anwendungen ist es auch interessant, über Durchschnittseffekte hinauszublicken, um zu verstehen, wie sich kausale Effekte mit beobachtbaren Merkmalen verändern.“
(Knaus, Lechner & Strittmatter, 2018)
Solche Schätzungen helfen dabei, Fragen zu beantworten wie: Für wen wirken Maßnahmen besonders stark oder gar negativ? In der Marketingwelt kann dies helfen, Kampagnen gezielter auszusteuern – z. B. welche Kundengruppe reagiert besonders auf eine Aktion? Oder: Welche Alters- oder Einkommensgruppen reagieren sensibler auf Preisänderungen?
Wo klassische Methoden versagen
Die Schätzung heterogener Effekte ist kein neues Konzept. In der Ökonometrie spricht man von Moderation, wenn untersucht wird, welche Variablen die Wirkung einer Maßnahme beeinflussen. Klassischerweise nutzt man dafür eine Multiple Lineare Regression mit Interaktionstermen. Hierbei wird getestet, ob die Interaktion zwischen einer Variable und der Maßnahme signifikant ist:
Y=β0+β1w+β2x1+β3(w∗x1)Y = \beta_0 + \beta_1 w + \beta_2 x_1 + \beta_3 (w * x_1)Y=β0+β1w+β2x1+β3(w∗x1)
Ist β3\beta_3β3 signifikant, hängt der Effekt von x1x_1x1 ab. Der individuelle Effekt lautet dann:
β1+β3∗x1\beta_1 + \beta_3 * x_1β1+β3∗x1
Das Problem: Bei mehreren Variablen explodiert die Anzahl der notwendigen Interaktionstermen. Für p=5p = 5p=5 Variablen braucht man 64 Parameter, bei 10 schon 2048! Neben Rechenproblemen leiden solche Modelle unter statistischer Schwäche und beschränken sich auf lineare Zusammenhänge.
Generalized Random Forests
Deshalb wurden Machine Learning Algorithmen wie der Generalized Random Forest (GRF) von Athey, Tibshirani & Wager (2018) entwickelt. GRFs basieren auf klassischen Random Forests, eignen sich aber nicht nur für heterogene Behandlungseffekte, sondern auch für nichtparametrische Quantilsregression und instrumentvariablenbasierte Regression.
1. Splitting-Kriterium
Anders als klassische Random Forests, die bei jeder Node-Teilung den Mean Squared Error (MSE) von YYY minimieren, fokussiert sich der Causal Forest auf maximale Unterschiede der Effekte. Das Splitting-Kriterium wird angepasst, um Teilungen zu finden, bei denen sich die Behandlungseffekte möglichst stark unterscheiden – inklusive Varianz-Korrektur.

2. Honesty
Da man kausale Effekte nicht direkt beobachten kann, bewertet man Causal Forests über Bias, Standardfehler und Konfidenzintervalle. Damit diese statistische Inferenz möglich ist, werden sogenannte honest trees verwendet:
- Trainingsdaten werden in zwei Subsamples geteilt.
- Splitting-Sample: Zum Aufbau des Baums.
- Estimating-Sample: Zum Schätzen der Effekte.
So wird Verzerrung reduziert und die Schätzwerte sind asymptotisch normalverteilt – perfekte Voraussetzungen für valide Konfidenzintervalle.
Causal Forest in Aktion
Zur Demonstration wird der GRF mit einer klassischen Regression verglichen – mithilfe simulierter Daten, in denen der wahre Behandlungseffekt bekannt ist:
DatensatzHeterogenitätEinfluss-VariablenVariablenBeobachtungen1Nein–x₁–x₁₀20.0002Jax₁ & x₂x₁–x₁₀20.000
Beide Datensätze haben 10 Kovariaten (0–1 skaliert) und ein Outcome YYY. Die Modelle:
Mit Heterogenität:
Y=β0+β1x1+⋯+β10x10+β11w+β12(w∗x1)+β13(w∗x2)+β14(x1∗x2)+β15(w∗x1∗x2)Y = \beta_0 + \beta_1 x_1 + \dots + \beta_{10} x_{10} + \beta_{11} w + \beta_{12}(w*x_1) + \beta_{13}(w*x_2) + \beta_{14}(x_1*x_2) + \beta_{15}(w*x_1*x_2)Y=β0+β1x1+⋯+β10x10+β11w+β12(w∗x1)+β13(w∗x2)+β14(x1∗x2)+β15(w∗x1∗x2)
Ohne Heterogenität:
Y=β0+β1x1+⋯+β10x10+β11wY = \beta_0 + \beta_1 x_1 + \dots + \beta_{10} x_{10} + \beta_{11} wY=β0+β1x1+⋯+β10x10+β11w
Ergebnisse:
DatensatzMetrikGRFlmOhne HeterogenitätRMSE0.010.00Mit HeterogenitätRMSE0.080.45
Fazit: GRF schlägt die Regression deutlich bei nichtlinearen Zusammenhängen, selbst wenn man die relevanten Variablen kennt. Die Flexibilität des Causal Forests ist einfach überlegen.

Ausblick
Ich hoffe, dieser Beitrag hat dir einen verständlichen Einblick in die Funktionsweise und Vorteile von Causal Forests gegeben. In den nächsten Blogposts zur Causal Machine Learning Serie werde ich tiefer in spezifische Herausforderungen und Datenstrukturen eintauchen – u. a. wie klassische ML-Algorithmen bei kausalen Effekten versagen oder wie man simulierte Datengenerierungsprozesse gestaltet.
Referenzen:
- Athey, S., Tibshirani, J., & Wager, S. (2019). Generalised random forests. The Annals of Statistics, 47(2), 1148-1178. Link
- Knaus, M. C., Lechner, M., & Strittmatter, A. (2018). Machine learning estimation of heterogeneous causal effects: Empirical monte carlo evidence. arXiv:1810.13237v2