Machine Learning Goes Causal I: Warum Kausalität wichtig ist


Bei statworx freuen wir uns darüber, dass sich in den letzten Jahren ein vielversprechendes neues Feld im Bereich des Machine Learnings entwickelt hat: Causal Machine Learning. Kurz gesagt, befasst sich Causal Machine Learning mit der wissenschaftlichen Erforschung von Machine-Learning-Algorithmen, die es ermöglichen, kausale Effekte zu schätzen.
In den vergangenen Jahren wurden verschiedene Algorithmen im Bereich des Causal Machine Learning entwickelt. Diese vereinen Fortschritte aus dem Machine Learning mit der Theorie der kausalen Inferenz, um unterschiedliche Arten kausaler Effekte zu identifizieren und zu quantifizieren. Mein Kollege Markus hat einige dieser Algorithmen bereits in einem früheren Blogpost vorgestellt.
Da Causal Machine Learning ein recht komplexes Thema ist, werde ich eine Blogserie schreiben, um Schritt für Schritt in diese faszinierende neue Welt der Data Science einzutauchen. Dieser erste Beitrag dient als Einführung und beschäftigt sich mit der Frage, was Causal Machine Learning eigentlich ist und warum es in der Praxis – und für die Zukunft der Data Science – so wichtig ist.
Die Ursprünge des Causal Machine Learning
Wie Markus bereits in seinem früheren Blogpost erklärt hat, dreht sich die Analyse in den Wirtschaftswissenschaften und anderen Sozialwissenschaften in erster Linie um die Schätzung kausaler Effekte – also um die isolierte Wirkung einer bestimmten Einflussgröße (eines Merkmals) auf ein Ergebnis.
Gemäß dem Potential Outcomes Framework, das von Rubin (1947) eingeführt wurde, wird der Behandlungseffekt einer Person wie folgt definiert:
γi=Yi(1)−Yi(0)\gamma_i = Y_i(1) - Y_i(0)γi=Yi(1)−Yi(0)
Dabei bezeichnet Yi(1)Y_i(1)Yi(1) das potenzielle Ergebnis der Person iii mit Behandlung, während Yi(0)Y_i(0)Yi(0) das potenzielle Ergebnis ohne Behandlung darstellt.
Tatsächlich liegt das Interesse in den meisten Fällen auf sogenannten Treatment Effects (Behandlungseffekten). Ein Treatment Effect bezeichnet den kausalen Effekt einer Maßnahme oder Intervention auf eine Zielvariable, die aus wissenschaftlicher oder politischer Sicht von Interesse ist.
In der Volkswirtschaftslehre gehört zu den am häufigsten untersuchten Behandlungseffekten der kausale Einfluss eines subventionierten Weiterbildungsprogramms auf das Einkommen.
Im Rahmen des Potential Outcomes Framework, das auf Rubin (1947) zurückgeht, wird der Behandlungseffekt für eine einzelne Person wie folgt definiert:
γi=Yi(1)−Yi(0)
Dabei bezeichnet Yi(1)Y_i(1)Yi(1) das potenzielle Ergebnis der Person iii mit Behandlung, während Yi(0)Y_i(0)Yi(0) das potenzielle Ergebnis der Person iii ohne Behandlung darstellt.
Da eine Person jedoch entweder die Behandlung erhält oder nicht, kann immer nur eines der beiden potenziellen Ergebnisse zu einem bestimmten Zeitpunkt beobachtet werden. Der individuelle Behandlungseffekt ist somit nicht direkt beobachtbar. Dieses Problem ist auch als das Fundamentale Problem der kausalen Inferenz (Fundamental Problem of Causal Inference) bekannt.
Unter bestimmten Annahmen können jedoch Durchschnittswerte der individuellen Behandlungseffekte identifiziert werden. In randomisierten Experimenten, bei denen die Behandlung zufällig zugewiesen wird, sind diese Annahmen in der Regel automatisch erfüllt. In solchen Fällen ist die Identifikation beliebiger Aggregationsebenen der individuellen Behandlungseffekte ohne weitere Komplikationen möglich.
In vielen praktischen Situationen sind jedoch randomisierte Experimente nicht durchführbar, sodass Forschende mit Beobachtungsdaten (observational data) arbeiten müssen. Hier sind die genannten Annahmen in der Regel nicht erfüllt. Daher hat sich eine umfangreiche Literatur – insbesondere in der Volkswirtschaftslehre, aber auch in anderen Disziplinen – mit Methoden zur Identifikation kausaler Effekte unter Verletzung dieser Voraussetzungen beschäftigt.
„Vorhersage und kausale Inferenz sind unterschiedliche (wenn auch eng verwandte) Probleme.“
— Athey, 2017, S. 484
Im Gegensatz dazu konzentrierte sich die (überwachte) Machine-Learning-Literatur traditionell auf Vorhersage – also darauf, den Wert der Zielvariable anhand von Merkmalen (Features) vorherzusagen.
Machine-Learning-Modelle sind darauf ausgelegt, komplexe Strukturen in den verfügbaren Daten zu erkennen und so zu generalisieren, dass sie genaue Vorhersagen für neue Daten ermöglichen. Diese Algorithmen können eine enorme Anzahl an Prädiktoren verarbeiten und sie auf nichtlineare und hochinteraktive Weise kombinieren.
Sie haben sich in der Praxis als äußerst erfolgreich erwiesen und finden Anwendung in Bereichen, die von der Medizin bis hin zur Ressourcenzuteilung in Städten reichen.
Die besten Aspekte beider Welten vereint
Obwohl Ökonominnen und andere Sozialwissenschaftlerinnen präzise Schätzungen kausaler Effekte gegenüber reiner Vorhersagekraft bevorzugen, waren sie dennoch fasziniert von den Vorteilen moderner Machine-Learning-Methoden – etwa der hohen Prognosegenauigkeit bei neuen Daten (Out-of-Sample Prediction) oder der Fähigkeit, mit einer großen Anzahl von Merkmalen (Features) umzugehen.
Wie wir jedoch gesehen haben, sind klassische Machine-Learning-Modelle nicht darauf ausgelegt, kausale Effekte zu schätzen. Wenn man Standard-Vorhersagemethoden aus dem Machine Learning direkt zur Schätzung kausaler Effekte einsetzt, führt das in der Regel zu verzerrten (biased) Ergebnissen.
Daher mussten bestehende Machine-Learning-Techniken angepasst werden, um ihre Vorteile für die konsistente und effiziente Schätzung kausaler Effekte nutzbar zu machen – die Geburtsstunde des Causal Machine Learning!

Zwei Forschungsrichtungen im Causal Machine Learning
Aktuell lässt sich Causal Machine Learning grob in zwei Forschungsrichtungen unterteilen, die sich nach der Art des zu schätzenden kausalen Effekts unterscheiden:
Eine Linie der Forschung konzentriert sich darauf, Machine-Learning-Methoden so zu modifizieren, dass sie unverzerrte und konsistente Schätzungen des durchschnittlichen Behandlungseffekts (Average Treatment Effect, ATE) liefern. Der durchschnittliche Behandlungseffekt ist der Mittelwert aller individuellen Behandlungseffekte in einer gesamten Zielpopulation – und vermutlich der am häufigsten untersuchte Parameter in ökonometrischen Kausalstudien. Modelle aus diesem Bereich zielen auf Fragen wie:
- Wie reagieren Kund*innen im Durchschnitt auf eine Marketingkampagne?
- Wie wirkt sich eine Preisänderung im Mittel auf den Umsatz aus?
Die zweite Forschungsrichtung konzentriert sich auf die Identifikation von Heterogenität in Behandlungseffekten. Das heißt: Es sollen Subgruppen von Individuen (basierend auf ihren Merkmalen) identifiziert werden, für die der Behandlungseffekt größer oder kleiner als der Durchschnitt ist. Diese Modelle beantworten Fragen wie:
- Welche Kund*innen reagieren am stärksten auf eine Marketingkampagne?
- Wie verändert sich der Effekt einer Preisänderung auf den Umsatz in Abhängigkeit vom Alter der Kund*innen?
Entscheidungsfragen brauchen kausale Antworten
Obwohl die Entwicklung des Causal Machine Learning bisher vor allem von der ökonomischen Forschung vorangetrieben wurde, sollte die Bedeutung für andere Bereiche – insbesondere die Wirtschaft – nicht unterschätzt werden. Unternehmen greifen häufig auf klassische Machine-Learning-Werkzeuge zurück, um Entscheidungsprobleme zu lösen, etwa:
- Welcher Preis soll gesetzt werden?
- Welche Kund*innen sollen mit einer Kampagne angesprochen werden?
Allerdings gibt es einen entscheidenden Unterschied zwischen einer Vorhersage und einer Entscheidung. Um wirklich datengetriebene Entscheidungen treffen zu können, ist das Verständnis kausaler Zusammenhänge entscheidend.
Zwei Beispiele aus unserer täglichen Arbeit verdeutlichen dieses Problem:
Beispiel 1: Preiselastizitäten
Im Zentrum jedes Preismanagements eines Unternehmens steht die Frage: Wie reagieren Kund*innen auf Preisänderungen? Um einen optimalen Preis zu setzen, muss das Unternehmen wissen, wie viele Einheiten bei unterschiedlichen (hypothetischen) Preisniveaus verkauft würden. Die wohl praktischste und aussagekräftigste Metrik zur Beantwortung dieser Frage ist die Preiselastizität der Nachfrage.
Auch wenn es auf den ersten Blick sinnvoll erscheint, die Preiselastizität der Nachfrage durch ein klassisches Machine-Learning-Modell zu schätzen – also den Umsatz als Zielvariable zu modellieren und den Preis als Feature – liefert dieser Ansatz nicht automatisch den kausalen Effekt des Preises auf den Umsatz.
„Es bestehen mehrere Lücken zwischen Vorhersage und Entscheidung. Die zugrundeliegenden Annahmen müssen verstanden werden, um datengetriebene Entscheidungen optimal zu gestalten.“
— Athey, 2017, S. 483
Angelehnt an ein Beispiel aus Athey (2017): Angenommen, wir verfügen über historische Daten zu Flugticketpreisen und den entsprechenden Auslastungsraten. Typischerweise sind Preise und Auslastung positiv korreliert, da Fluggesellschaften ihre Preise erhöhen, wenn die Auslastung steigt. Ein klassisches ML-Modell würde in diesem Fall die folgende Frage beantworten:
Wenn der Flugpreis an einem bestimmten Tag hoch ist – wie hoch ist voraussichtlich die Auslastung?
Das Modell würde korrekt vorhersagen, dass die Auslastung vermutlich ebenfalls hoch ist. Es wäre jedoch falsch, daraus zu schließen, dass eine Preiserhöhung zu einer höheren Auslastung führt. Aus Erfahrung wissen wir: Das Gegenteil ist der Fall – würde eine Airline ihre Ticketpreise flächendeckend um 10 % erhöhen, würden voraussichtlich weniger Tickets verkauft.
Beispiel 2: Kundenabwanderung (Churn)
Ein weiteres typisches Problem, das Unternehmen mit Machine Learning zu lösen versuchen, ist die Vorhersage von Kundenabwanderung (Customer Churn), also der Abbruch einer Geschäftsbeziehung durch Kundinnen. Ziel ist es, jene Kundinnen mit dem höchsten Risiko zu identifizieren, um gezielte Maßnahmen zur Kundenbindung ergreifen zu können.
Klassische Machine-Learning-Algorithmen sind hervorragend darin, Churn-Risiken vorherzusagen. Leider helfen diese Vorhersagen nicht ausreichend bei der Frage, welche Kund*innen am sinnvollsten mit Maßnahmen angesprochen werden sollten. Denn diese Frage ist kausaler Natur:
Bei welchen Kund*innen haben Maßnahmen zur Kundenbindung den größten kausalen Effekt auf deren Verhalten?
Studien haben gezeigt, dass der Überlapp zwischen jenen Kund*innen mit dem höchsten Churn-Risiko und jenen, die am stärksten auf Maßnahmen reagieren, oft weit unter 100 % liegt. Behandelt man das Problem rein als Vorhersageproblem und verwendet klassische ML-Modelle, erzielt man suboptimale Ergebnisse und geringere wirtschaftliche Erträge.
Der Wunsch jedes Data Scientists
Abgesehen von den praktischen Anwendungsfällen gibt es einen grundlegenderen Grund, warum Causal Machine Learning für alle Data Scientists interessant sein sollte: Modellgeneraliserbarkeit.
Ein Machine-Learning-Modell, das kausale Zusammenhänge erfassen kann, lässt sich besser auf neue Situationen übertragen – was bis heute eine der größten Herausforderungen im Machine Learning ist.

Zur Veranschaulichung möchte ich ein Beispiel aus „The Book of Why“ von Pearl und Mackenzie (2018) verwenden: das Beispiel vom Hahn und der Sonne.
Ein Machine-Learning-Algorithmus, dem Daten über einen Hahn und den Sonnenaufgang gezeigt werden, würde eine Assoziation zwischen dem Krähen des Hahns und dem Aufgehen der Sonne herstellen. Er könnte sogar ziemlich genau vorhersagen, wann die Sonne aufgeht: Wenn der Hahn gerade gekräht hat, geht kurz danach die Sonne auf.
Ein solches Modell, das nur Korrelationen erfassen kann, würde jedoch nicht generalisieren, wenn kein Hahn vorhanden ist. In einem solchen Fall würde ein klassisches Machine-Learning-Modell niemals vorhersagen, dass die Sonne aufgeht, da es keinen entsprechenden Datenpunkt kennt – also einen Sonnenaufgang ohne Hahn.
Wenn das Modell jedoch die wahre kausale Beziehung erlernt hätte – nämlich, dass das bevorstehende Aufgehen der Sonne das Krähen des Hahns verursacht –, dann könnte es problemlos vorhersagen, dass die Sonne auch ohne Hahn aufgehen wird.
Keine echte Künstliche Intelligenz ohne kausales Denken
Pearl und Mackenzie (2018) gehen noch einen Schritt weiter: Sie argumentieren, dass wir niemals eine echte, menschenähnliche Künstliche Intelligenz erreichen können, ohne Maschinen das kausale Denken beizubringen. Ursache und Wirkung sind laut ihnen die zentralen Mechanismen, mit denen wir Menschen die komplexe Welt um uns herum verstehen und verarbeiten.
Die bloße Fähigkeit, Korrelationen vorherzusagen, macht Maschinen noch nicht intelligent – sie erlaubt ihnen lediglich, eine Realität zu modellieren, basierend auf den Daten, die ihnen zur Verfügung stehen.
„Die Algorithmisierung von kontrafaktischen Überlegungen lädt denkende Maschinen dazu ein, von der Fähigkeit zu profitieren, über vergangene Handlungen zu reflektieren und an dieser – bisher einzigartig menschlichen – Art, über die Welt nachzudenken, teilzuhaben.“
— Pearl & Mackenzie, 2018, S. 10
Darüber hinaus müssen Machine-Learning-Modelle in der Lage sein, kausale Effekte zu erkennen, um kontrafaktische Fragen stellen zu können – also Fragen danach, wie sich eine Beziehung unter einer bestimmten Intervention verändern würde.
Da kontrafaktische Überlegungen als Grundpfeiler moralischen Handelns und wissenschaftlichen Denkens gelten, werden Maschinen nur dann effektiver mit uns Menschen kommunizieren und den Status moralischer Wesen mit freiem Willen erreichen können, wenn sie kausales – und damit auch kontrafaktisches – Denken erlernen.
Ausblick
Auch wenn dieser letzte Abschnitt zum Schluss hin etwas philosophisch geworden ist, hoffe ich, dass dir dieser Blogpost einen guten Einblick geben konnte, was Causal Machine Learning ist – und warum es nicht nur in der Praxis, sondern auch für die Zukunft der Data Science insgesamt essenziell ist.
In meinen kommenden Blogbeiträgen werde ich verschiedene Aspekte dieses Themas detaillierter beleuchten. Zum Beispiel werde ich genauer auf die Probleme eingehen, die beim Einsatz klassischer Machine-Learning-Algorithmen zur Schätzung kausaler Effekte entstehen, oder verschiedene Causal-Machine-Learning-Algorithmen in einer Simulationsstudie vergleichen.
Referenzen
- Athey, S. (2017). Beyond prediction: using big data for policy problems. Science 335, 483-485.
- Pearl, J., & Mackenzie, D. (2018). The book of why. New York, NY: Basic Books.
- Rubin, D. B. (1974). Estimating causal effects of treatments in randomised and non-randomised studies. Journal of Educational Psychology, 66(5), 688-701.