11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 1/48
Economía y CienciaEconomía y Ciencia
de Datos de Datos
Reproducibilidad y RepetibilidadReproducibilidad y Repetibilidad
Arturo Chian Arturo Chian @besteamperu@besteamperu
Un presentación BEST Un presentación BEST http://besteamperu.org/http://besteamperu.org/
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 2/48
¿Qué se nos viene a la mente con Ciencia de Datos? 🤔
Imagen extraída de Learning Tree 2 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 3/48
¿Qué se nos viene a la mente con Ciencia de Datos? 🤔
Imagen extraída de VSPS Education 3 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 4/48
De�niendo Data Science 🤓
“For a long time I have thought I was a statistician, interested in inferences from theparticular to the general. But as I have watched mathematical statistics evolve, I have hadcause to wonder and to doubt. …All in all I have come to feel that my central interest is indata analysis, which I take to include, among other things: procedures for analyzing data,techniques for interpreting the results of such procedures, ways of planning the gatheringof data to make its analysis easier, more precise or more accurate, and all the machineryand results of (mathematical) statistics which apply to analyzing data.
Tukey (1962). The future of Data Analysis, The Annals of Mathematical Statistics
4 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 5/48
De�niendo Data Science 🤓
‘Hace 50 años, John Tukey llamó a una reforma académica en estadística, a través de unode los más importantes papers de esa época, llamado “The Future of Data Analysis”,donde señalaba la necesidad futura de una ciencia cuyo interés sea aprender de la data oanálisis de datos. Hace unos 20 a 10 años, John Chamber, Jeff Wu, Bill Cleveland y LeoBreiman, dieron una serie de argumentos, de forma independiente sobre expandir loslímites de la estadística teórica: Chambers enfatizaba la importancia de la preparación dedatos, más que el modelaje estadístico; Breiman, prefería enfatizar la predicción antesque la inferencia; y Cleveland y Wu sugerían llamar a este nuevo campo Data Science porsu estrecha relación a la data.
Arturo Chian (2018). A propósito de los 25 años de R y 50 años de Data Science (Parte1), Blog de Behavioral Economics & Data Science Team
5 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 6/48
Diagrama de Venn - Drew Conway 1 . Hacking Skills: Capacidad de
resolver problemas programando.
2 . Math & Statistics knowledge:
Aplicar de forma correcta
estadística.
3 . Conocimiento de experto:
Comprender la data en su campo
de investigación (economía,
biología, psicología, derecho, etc).
De�niendo Data Science 🤓
Fuente: Drew Conway 6 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 7/48
¿Qué hace un Data Scientist en el día a día? 🤔
Fuente: IIO-World 7 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 8/48
¿Qué hace un Data Scientist en el día a día? 🤔
Fuente: IIO-World 8 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 9/48
El Ciudadano (¿Economista?) Data Scientist 🤔
Imagen extraída de VSPS Education 9 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 10/48
¿Cómo muchos economistas hemos aprendido Data Science en lapráctica?
10 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 11/48
¿Y qué tan útil puede ser Data Science para un economista?
11 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 12/48
Creación de libros abiertos 😃
Fuente: Forecasting: Principles and Practice 12 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 13/48
Nuevas formas de hacer tesis 😃
Fuente: ThesisDown 13 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 14/48
Promueve la investigación reproducible 🤓
Fuente: ThesisDown 14 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 15/48
Grá�cos Dinámicos 😎
Fuente: Mages Blog 15 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 16/48
Desarrollo de aplicaciones fácil de realizar 😎
Fuente: Pasa Segura Medellin16 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 17/48
Y otras más potentes... El límite es tu imaginación 😎
Analytic Health Demo Sep 18Analytic Health Demo Sep 18
Fuente: Analytic Health17 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 18/48
La llave 🔑 para desbloquear el poder del ultra instinto del economistadel siglo XXI
18 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 19/48
El poder del Guantalete del Data Science
En manos de un economista para dominar al universo: Consultorías, academia,trabajos, etc. Las posibilidades son in�nitas. 😎
19 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 20/48
Reproducibilidad y RepetibilidadReproducibilidad y Repetibilidad
20 / 4820 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 21/48
Conociendo los conceptos
21 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 22/48
¿Por qué sería importante para economía?
22 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 23/48
¿Crisis de replicabilidad/reproducibilidad en economía?
Fuente: Bloomberg opinion 23 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 24/48
¿Crisis de replicabilidad/reproducibilidad en economía?
Fuente:Vox 24 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 25/48
Tipos de reproducibilidad en Economía
1 . Reproducirlo con otra población/tiempo/espacio.
2 . Usar la misma data, pero modi�car la metodología de datos cualitativos.
3 . Replicar el paper sin modi�car la metodología ni la data.
25 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 26/48
Perú Alemania
Tipo 1: Reproducibilidad en otra población
26 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 27/48
Tipo 2: Variación metodológica en de�niciones cualitativas
¿Cómo de�nir qué es pobre?
¿Cómo de�nir qué es feliz?
¿Cómo de�nir qué es bienestar?
¿Cómo de�nir qué es un buen estudiante?
27 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 28/48
Tipo 3: Replicación al 100%
Se debe realizar de preferencia con el mismo software.
Se debe realizar con la base de datos en bruta.
De preferencia sí, con el mismo código, en caso aplique.
28 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 29/48
Tipo 3: Replicación al 100%
¿Esto sería relevante en Economía?
29 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 30/48
Tipo 3: Replicación al 100%
En el 2016, los economistas Andrew Chang y Phillip Li trataron de
reproducir los resultados de 65 papers publicados en importantes Journals.
Ellos usaron la data original e incluso contactaron a los autores para que les
señalen los pasos que usaron. Sólo lograron replicar el 49%.
Uno de los casos más conocidos es la replicación de un paper del 2013 de
Reinhart y Rogoff, los cuales alegaban una correlación alta entre alta deuda de
gobierno y crecimiento; pero encontraron errores/manipulaciones en la base
de datos que usaron vs la original.
30 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 31/48
Otros problemas en las investigaciones: El p-hacking
Es un problema que afecta a la ciencia.
Se trata de buscar p value signi�cativo probando diversas técnicas sin rigor
cientí�co.
Hay muchas publicaciones cientí�cas que se desarrollan y se publican
usando el p-hacking.
31 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 32/48
Rmarkdown: ¿Una solución?Rmarkdown: ¿Una solución?
32 / 4832 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 33/48
El inicio: knitr
El paquete que dio inicio a todo se llama knitr.
33 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 34/48
El creador de knitr: Yihui Xie
Creador de diversos paquetes de R y uno de los más relevantes Data Scientist delmundo de R. Actualmente cuenta con un PhD y trabaja en RStudio.
34 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 35/48
Rmarkdown vs Latex
¿Qué ventajas tiene markdown sobre Latex?
Rápido de aprender: En minutos lo aprendes.
Variedad de outputs: No sólo latex, word, ppt, html, markdown, etc.
�exible a tu medida: Si necesitas más detalles especí�cos, puedes usar
CSS o incluso Latex.
Combinar lenguajes de programación: No sólo R, sino Python, Julia, C,
etc.
Fuente: Blog Yihui Xie en inglés
35 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 36/48
Estructura de un RMD
YAML: Lenguaje de serialización. Sirve para meter datos como autor, fecha,
opciones avanzadas, etc.
Títulos: Usando michi para título 1, 2 michis para título 2, así
sucesivamente.
Textos: Tan fácil como tipear normal. En caso de negritas, poner 1, 2 o 3
subrayado o negritas (lo veremos en la práctica!).
Chunks: Puedes correr código de R y otros lenguajes en este espacio, y
puedes con�gurar de tal forma que sólo sea necesario.
Código en texto: Aplica a tu paper o reporte un código de tal forma que te
salga, por ejemplo, el coe�ciente de regresión y no tengas que tipearlo.
36 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 37/48
¿Y qué tan difícil es programar?
37 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 38/48
¿Y qué tan difícil es programar?
38 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 39/48
Programación funcional (Ejm: Excel)
arrange( summarize( group_by( filter(mtcars, carb > 1), cyl ), Avg_mpg = mean(mpg) ), desc(Avg_mpg) )
39 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 40/48
Programación funcional (Ejm: Excel)
arrange(summarize(group_by(filter(mtcars, carb > 1),cyl),Avg_mpg = mean(mpg))
40 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 41/48
Programación basada en objetos (Stata)
a <- filter(mtcars, carb > 1)b <- group_by(a, cyl)c <- summarise(b, Avg_mpg = mean(mpg))d <- arrange(c, desc(Avg_mpg))print(d)
41 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 42/48
Programación con pipas (R + Tidyverse)
library(magrittr)library(dplyr)
mtcars %>% filter(carb > 1) %>% group_by(cyl) %>% summarise(Avg_mpg = mean(mpg)) %>% arrange(desc(Avg_mpg))
42 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 43/48
Posibles soluciones
Promover tesis reproducibles.
Promover más Journals que sean reproducibles.
Promover el uso de software libre.
43 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 44/48
Posibles soluciones
BEST aportando a la comunidad del software libre y a la comunidad de cienciaabierta.
44 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 45/48
Posibles soluciones
BEST aportando a la comunidad del software libre y a la comunidad de cienciaabierta.
45 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 46/48
Posibles soluciones
BEST aportando a la comunidad del software libre y a la comunidad de cienciaabierta.
46 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 47/48
Economía y Ciencia de datos
BEST
47 / 48
11/4/2019 Economía y Ciencia de Datos
file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 48/4848 / 4848 / 48