Inferencia Causal: Amenazas al diseño experimental y
análisis de datos
Juan Saavedra
RAND Coorporation
Contexto del Curso
1. Introducción a las Evaluaciones de Impacto
2. Teoría de Cambio e Indicadores
3. Por qué y Cómo Aleatorizar
4. Tamaño de Muestra y Cálculos de Poder
5. Inferencia Causal
6. Evaluaciones Experimentales y Políticas
Públicas
7. Evidencia de Evaluaciones Experimentales
8. Evaluación Experimental de Principio a Fin
Esquema de presentación
I. Introducción
II. Validez interna y amenazas
III. Análisis de resultados: ITT y TOT
IV. Selección de resultados
V. Validez externa y amenazas
Introducción
• Habíamos hablado de problemas de inferencia causal con
relación a la atribución de un impacto medible a cierto
programa o intervención
• Resolvemos este problema por medio de la introducción
de un diseño experimental
• En esta presentación hablaremos a fondo de las
amenazas al diseño experimental, así como la
interpretación de resultados y validez externa
Validez interna y amenazas
La validez interna se refiere a la posibilidad de
interpretar los resultados de una evaluación
experimental de manera causal.
Tres amenazas:
1. Desgaste
2. Externalidades
3. Cumplimiento imperfecto con el protocolo
Desgaste
¿Es un problema si algunas de las personas en el
experimento se desaparecen antes de que Ud. recopile
sus datos?
Es un problema si, luego de deserción, grupo de control y
grupo de tratamiento no son comparables
¿Por qué es un problema?
10
1. 2. 3. 4.
0% 0%0%0%
1. Los grupos no son comparables
2. Incrementa el tamaño muestral
3. 1 y 2
4. En realidad, no es un problema
Sesgo de desgaste: un ejemplo
El problema que Ud. quiere abordar:
• Algunos niños no van a la escuela porque deben
ayudar a sus padres con trabajo en el hogar
Usted inicia un programa de subsidios condicionados
a la asistencia escolar en la comunidad y desea evaluar
su impacto sobre:
• Asistencia Escolar
• Desempeño Académico de los Estudiantes
Si mide el impacto sobre asistencia escolar observando la
asistencia de cada niño a la escuela en un día escogido al
azar, está midiendo el impacto verdadero, lo está
subestimando o sobreestimando? Clickers!
12
Sesgo de desgaste: un ejemplo
13
1. 2. 3.
0% 0%0%
1. Impacto verdadero
2. Subestimando
3. Sobreestimando
Si mide el impacto sobre asistencia escolar observando la
asistencia de cada niño a la escuela en un día escogido al
azar, está midiendo el impacto verdadero, lo está subestimando o sobreestimando?
Si mide el impacto sobre desempeño académico con una
prueba administrada en el día que visita el colegio al azar,
está midiendo el impacto verdadero, lo está subestimando o
sobreestimando? Clickers!
14
Sesgo de desgaste: un ejemplo
15
1. 2. 3.
0% 0%0%
1. Impacto verdadero
2. Subestimando
3. Sobreestimando
Si mide el impacto sobre desempeño académico con una
prueba administrada en el día que visita el colegio al azar,
está midiendo el impacto verdadero, lo está subestimando o sobreestimando?
Antes del Tratamiento Después del Tratamiento
T C
20 20
25 25
30 30
T C
22 20
27 25
32 30
Puntaje observado en prueba académica si todos los niños
asistieran a la escuela
Antes del Tratamiento Después del Tratamiento
T C
20 20
25 25
30 30
25 25
T C
22 20
27 25
32 30
27 25 Promedio
Puntaje observado en prueba académica si todos los niños
asistieran a la escuela
Antes del Tratamiento Después del Tratamiento
T C
20 20
25 25
30 30
25 25
T C
22 20
27 25
32 30
27 25 Promedio
Diferencia: 0 Diferencia: 2
Puntaje observado en prueba académica si todos los niños
asistieran a la escuela
Antes del Tratamiento Después del Tratamiento
T C
ausente ausente
25 25
30 30
25 25
T C
22 ausente
27 25
32 30
27 25 Promedio
Diferencia: 0 Diferencia: -0,5
¿Qué sucede si no todos los niños asistían a la escuela y el programa afecta la asistencia de los niños en el grupo de tratamiento?
Sesgo de desgaste
• Destine recursos al seguimiento de los participantes
después de dejar del programa
• Compruebe que no sea diferente en tratamiento y
control. ¿Es eso suficiente?
• Compruebe también que no esté correlacionado con
observables
• Trate de limitar el alcance del sesgo
¿Qué más podría fallar?
Población
objetivo
No es parte
de la
Evaluación
Muestra
Evaluación
Población
Total
Asignación
aleatoria
Grupo de
Tratamiento
Grupo de
Control
Externalidades, contaminación
Población
Objetivo
No es parte
de la
Evaluación
Evaluación
Muestra
Población
Total
Asignación
aleatoria
Grupo de
Tratamiento
Grupo de
Control
Tratamiento
Externalidades, contaminación
Población
Objetivo
No es parte
de la
evaluación
Muestra
Evaluación
Población
Total
Asignación
Aleatoria
Grupo en
Tratamiento
Grupo de
Control
Tratamiento
Aislar externalidades:
Vacuna contra la Varicela
Suponga que decide asignar de manera aleatoria
vacunas anti varicela dentro de las escuelas
• Suponga que impide la transmisión de la
enfermedad, ¿qué problemas genera esto para
la evaluación?
• Suponga que las externalidades son locales.
¿Cómo podemos medir el impacto total?
Alumno Tratamiento
(Vacuna)
Resultado
1 Sí Sin varicela
2 No Sin varicela
3 Sí Sin varicela
4 No Con varicela
5 Sí Sin varicela
6 No Con varicela
Sin externalidades
Alumno Tratamiento
(Vacuna)
Resultado
1 Sí Sin varicela
2 No Sin varicela
3 Sí Sin varicela
4 No Con varicela
5 Sí Sin varicela
6 No Con varicela
Sin externalidades
Tratamiento Resultado
Sí 0% con varicela
No 67% con varicela
Sin externalidades
Tratamiento Resultado
Sí 0% con varicela
No 67% con varicela
Efecto del tratamiento:
-67%
Alumno Tratamiento
(Vacuna)
Resultado
1 Sí Sin varicela
2 No Sin varicela
3 Sí Sin varicela
4 No Sin varicela
5 Sí Sin varicela
6 No Con varicela
Con externalidades
Alumno Tratamiento
(Vacuna)
Resultado
1 Sí Sin varicela
2 No Sin varicela
3 Sí Sin varicela
4 No Sin varicela
5 Sí Sin varicela
6 No Con varicela
Con externalidades
Tratamiento Resultado
Sí 0% con varicela
No 33% con varicela
Con externalidades
Tratamiento Resultado
Sí 0% con varicela
No 33% con varicela
Efecto del tratamiento:
-33%
Medir externalidades
Diseñe la unidad de aleatorización de manera
que abarque las externalidades
Por ejemplo, si esperamos que se encuentren
externalidades, que estén todas dentro de la
escuela:
– La aleatorización a nivel de la escuela
permite la estimación del efecto global
Ejemplo: Información de Precios
Proporcionar a los campesinos información
sobre precios al contado y futuros por teléfono
móvil
• ¿Deberíamos esperar externalidades?
Ejemplo: Información de Precios
Proporcionar a los campesinos información
sobre precios al contado y futuros por teléfono
móvil
• ¿Deberíamos esperar externalidades?
• Aleatorizar: ¿a nivel individual o a nivel
aldea?
Ejemplo: Información de Precios
Consideraciones:
Aleatorización a nivel de aldea
• Menos valor estadístico
• “Grupos de control más puros ”
Aleatorización a nivel individual
• Más valor estadístico (si las externalidades
son pequeñas)
• Capacidad para medir externalidades
¿Podemos hacer ambas? Asignar aleatoriamente
aldeas en uno de cuatro grupos, A, B, C y D
Ejemplo: Información de Precios
Grupo de Aldeas Tratamiento
Grupo Aldeas A Información de precios SMS a todos
los individuos con teléfonos
Grupo Aldeas B Información de precios SMS a
seleccionados aleatoriamente fue 75%
de los individuos con los teléfonos
Grupo Aldeas C Información de precios SMS a
seleccionados aleatoriamente fue 25%
de los individuos con teléfonos
Grupo Aldeas D Sin información de precios SMS
Cumplimiento imperfecto
Población
Objetivo
No es parte
de la
Evaluacion
Muestra de
Evaluación
Grupo de
tratamiento
Participantes
Ausencias
Grupo de
Control No Participan
Control
tratado
Selección
Aleatoria
No!
¿Qué puedes hacer? ¿Los puedes cambiar?
Población
Objetivo
No es parte
de la
Evaluación
Evaluación
Muestra
Grupo en
Tratamiento
Participantes
Ausentes
Grupo de
Control No Participan
Crontrol-
Tratado
Asignación
Aleatoria
¡No!
¿Qué puedes hacer?
¿Los dejas fuera?
Cumplimiento imperfecto
Población
Objetivo
No es parte
de la
Evaluación
Muestra
Evaluación
Grupo en
Tratamiento
Participantes
Ausentes
Grupo en
Control No Participan
Crontrol -
tratado
Asignación
Aleatoria
Puedes comparar los
grupos originales
Cumplimiento imperfecto
ITT y ToT
¿Cómo corregir incumplimiento?
Imaginemos una campaña de
vacunación en aldeas.
78% de las personas en aldeas
tratamiento reciben vacuna
¿Se pueden comparar los resultados de los
vacunados y no vacunados?
45
1. 2. 3.
0% 0%0%
1. Sí
2. No
3. No sé
¿Cuales grupos se pueden comparar ?
Aldeas Control
(Sin Vacunas)
Vacunado
No Vacunado No Vacunado
Aldeas Tratamiento
(Vacunas)
¿Cuál es la diferencia entre los 2 grupos aleatorios?
Aldeas Tratamiento Aldeas Control
1: Vacunado – no infectado
2: Vacunado – no infectado
3: Vacunado – infectado
5: No vacunado – infectado
6: No vacunado – no
infectado
7: No vacunado – infectado
8: No vacunado – infectado
4: No vacunado – infectado
Intención de Tratar - ITT
E (Y|Asignado=1) = resultado promedio entre los individuos de aldeas asignadas a tratamiento
E (Y|Asignado=0) = resultado promedio entre los individuos de aldeas asignadas a control
ITT = E(Y|Asignado=1) –
E(Y|Asignado=0)
ITT = 50% - 75% = -25 puntos porcentuales
Intención de Tratar (o ITT)
¿Qué mide la intención de tratar?
"¿Cuál es el impacto promedio de ofrecer el tratamiento a un grupo poblacional determinado?“
Es un impacto causal siempre y cuando la asignación aleatoria es válida y no hay amenazas a la integridad del experimento
¿Qué pasa si estamos interesados en el efecto de
recibir el tratamiento entre quienes lo reciben?
Debemos ajustar el ITT para tener en cuenta que no
todos los asignados reciben el tratamiento
¿Cómo lo hacemos?
51
¿Qué pasa si estamos interesados en el efecto de
recibir el tratamiento entre quienes lo reciben?
Debemos ajustar el ITT para tener en cuenta que no
todos los asignados reciben el tratamiento
¿Cómo lo hacemos?
La asignación aleatoria ya no es suficiente para
identificar el impacto del tratamiento sobre los tratados
Necesitamos asumir que la asignación al tratamiento no
tiene un impacto directo sobre el resultado
52
Estimación de TOT: Vacunación
Bajo este supuesto, podemos estimar TOT a a
partir de cuatro cantidades que conocemos:
1. E(Y | Asignado=1)
2. E(Y | Asignado=0)
3. Pr ( Vacunado | Asignado=1)
4. Pr ( Vacunado | Asignado=0)
Estimación de TOT
E(Y | Asignado=1) – E(Y | Asignado=0)
Pr (Vacunado | Asignado=1) - Pr (Vacunado | Asignado=0)
TOT no es siempre adecuado…
Ejemplo:
Enviamos aleatoriamente al 50% del personal
de GRADE una carta de advertencia acerca de
la temporada de gripe, incentivándolos a que
se vacunen.
De quienes reciben la carta, el 50% se
vacunan (En control nadie obtiene vacunas)
TOT no es siempre adecuado…
Supongamos que la incidencia de gripe en el grupo
tratado cae 35% en relación al grupo control
Es que el TOT:
(-0,35) / (0,5-0) = -0,70
Representa el impacto causal de la vacuna de la gripe
sobre los vacunados?
¿Qué efecto podría tener carta en sí?
Resultados Multiples
¿Podemos esperar diversos resultados?
• Mientras más resultados observamos, mayor
es la posibilidad de encontrar al menos un
afectado significativamente por el programa
– Pre-especifique los resultados de interés
– Informe el producto de todos los resultados
medidos, incluso los nulos
Co-variables
Regla: Reportar tanto las diferencias “brutas” como los resultados ajustados de regresión
• ¿Por qué incluir co-variables?
– Pueden explicar la variación, mejorar el valor estadístico
• ¿Por qué no incluir co-variables?
– Apariciones de "búsqueda de especificación”
¿Qué es validez externa?
Es la certidumbre que tenemos de que los resultados de
una evaluación aplican a otra escala y otros contextos
Evaluaciones experimentales usualmente se realizan a
pequeña escala y en situaciones y contextos específicos
Los resultados no necesariamente aplican cuando el
programa opera a gran escala o en otros contextos.
Amenazas a la Validez Externa:
Tres amenazas a validez externa:
1. Cambio en comportamiento como
consecuencia de la
observación/evaluación
2. Equilibrio parcial vs. Equilibrio general
3. Consideraciones de economía política
Cambios en comportamiento
Una limitación de las evaluaciones es que la evaluación en
sí puede causar que el grupo tratamiento o de comparación
cambien su comportamiento.
● Cambios de comportamiento en el grupo tratamiento
● Cambios de comportamiento en el grupo comparación
Cambios en comportamiento
Como lidiar con ellos:
● Minimizar la importancia de la evaluación lo más posible
● Considerar incluir controles que se midan únicamente en
la línea final
Equilibrio parcial vs. Equilibrio general
Impacto del programa a pequeña escala no es representativo del impacto a gran escala.
Ejemplo: Un programa a pequeña escala de becas (vouchers) condicionadas en logro para asistir a colegios privados.
Impacto positivo en logro es consecuencia de mejores pares escolares en colegios privados
¿Esperaríamos un impacto igual si damos becas a todos los niños?
Economía Política
Ejemplo: Docentes por contrato
Impacto positivo a pequeña escala de docentes por
contrato sobre el desempeño de los estudiantes
¿Podríamos facilmente cambiar es esquema de
contratación docente a nivel nacional a favor de
contratos?