Tesista: Constanza de Galvagni
Director: Matías López-Rosenfeld
Codirector: Gustavo Landfried
Resumen.
Esta tesis realiza una comparación de modelos de aprendizaje automático para la estimación de efectos causales que varían entre individuos. La motivación central consistió en extender los análisis del influyente artı́culo de Jennifer Hill “Bayesian Nonparametric Modeling for Causal Inference” (2011) a un conjunto de modelos más modernos, que incluyen Bayesian Additive Regression Trees (BART), Causal Forest (CF) y Bayesian Causal Forest (BCF).
La evaluación de modelos se basó en el uso de datasets semi-sintéticos, construidos a partir de covariables reales del estudio “Infant Health and Development Program” (IHDP). Siguiendo el enfoque de Hill, se simularon los resultados para crear escenarios controlados donde los efectos causales verdaderos eran conocidos. Se diseñaron diferentes tipos de superficies de respuesta, con el objetivo de evaluar efectos causales tanto homogéneos como heterogéneos. El rendimiento de los modelos se midió utilizando métricas como el error absoluto para el efecto promedio (ATE), el error cuadrático medio del efecto causal
individual (ITE) y la cobertura de los intervalos de confianza estimados para los efectos causales individuales.
En la estimación del efecto causal promedio (ATE), todos los modelos alcanzaron un desempeño satisfactorio, siendo BART el más destacado en todos los escenarios. En cambio, BCF mostró un rendimiento desigual, con buenos resultados en ciertas zonas del espacio de datos y un desempeño deficiente en otras, mientras que CF presentó un poder predictivo limitado y un error superior al de los demás métodos.
La tesis concluye enfatizando que la evaluación de modelos causales alternativos es un pre-rrequisito ineludible, tanto para la selección de variables de control previa a la estimación como para la toma de decisiones posterior. Se argumenta que la disciplina de la inferencia causal está actualmente limitada por el alto costo computacional de evaluar estas estructuras causales, y postula que su futuro depende del desarrollo de métodos eficientes que permitan ponderar la probabilidad de diferentes modelos a la luz de la evidencia empírica.
Palabras clave: Inferencia Causal, Efectos Causales Heterogéneos, Machine Learning Causal, Bayesian Additive Regression Trees, Causal Forest, Bayesian Causal Forest, Dataset IHDP.
Buenos Aires, 2025
Descargar PDF
Causal Machine Learning para evaluación de efectos causales heterogéneos