Date post: | 15-Apr-2017 |
Category: |
Data & Analytics |
Upload: | beatriz-martin-valcarcel |
View: | 370 times |
Download: | 3 times |
Introducción de Machine Learning
@zigiella, 10/2016 Craftsmanship Barcelona
a lo Berserker
AVISO A LAS EXPECTATIVAS
Esta charla es una charla de INTRODUCCIÓN al Machine Learning.
Es una charla de INTRODUCCIÓN.
Nivel BÁSICO.
Craftsmanship Barcelona
What do I mean with “Berserker”?
Craftsmanship Barcelona
DISCLAIMERSEsta charla puede herir la sensibilidad de estadísticos y matemáticos. También de data scientist expertos. Lo básico, a
veces, necesita reducir la dimensionalidad del contenido, así que esta charla
contiene muchas simplificaciones.
No se habla apenas de tecnologías: ni Hadoop, ni Spark,...
Los ejemplos están en R, lo siento por los amantes
del Python. Hay mezcla de idiomas. La charla requiere actos de Fe!
Craftsmanship Barcelona
PLAN
1- CONTEXTO: De dónde venimos, dónde estamos, a dónde vamos,... y qué pinta
Machine Learning en todo esto. TRENDS, MERCADO, PALABROS, ROLES
2- MACHINE LEARNING. DEFINICIÓN Y PROCESO. + CONTEXTO
3- ALGUNOS ALGORITMOS.
4- CONCLUSIONES.
5- RONDA DE COMENTARIOS.
Craftsmanship Barcelona
MY BACKGROUNDCraftsmanship Barcelona
@zigiella
INGENIERÍA INFORMÁTICA
DATA MANAGEMENT& ANALYTICS
BUSINESS MANAGEMENTMARKETINGADVERTISING
PSICOLOGÍA
ExecutiveMBA
EMPR
END
EDU
RÍA
Cerros de Úbeda
2014EMERGING TECHNOLOGIES
2014
Craftsmanship BarcelonaContexto
Tecnologías emergentesCraftsmanship BarcelonaContexto
EMERGING TECHNOLOGIES
2015
Craftsmanship BarcelonaContexto
EMERGING TECHNOLOGIES
2016
Craftsmanship BarcelonaContexto
Sources: Gartner 2013, Gartner 2014, Gartner 2015, Gartner 2016
EMERGING TECHNOLOGIES
2016The perceptual smart machine age: Smart machine technologies will be the most disruptive class of technologies over the next 10 years due to radical computational power, near-endless amounts of data, and unprecedented advances in deep neural networks that will allow organizations with smart machine technologies to harness data in order to adapt to new situations and solve problems that no one has encountered previously. Enterprises that are seeking leverage in this theme should consider the following technologies: Smart Dust, Machine Learning, Virtual Personal Assistants, Cognitive Expert Advisors, Smart Data Discovery, Smart Workspace, Conversational User Interfaces, Smart Robots, Commercial UAVs (Drones), Autonomous Vehicles, Natural-Language Question Answering, Personal Analytics, Enterprise Taxonomy and Ontology Management, Data Broker PaaS (dbrPaaS), and Context Brokering.
NEGRAPESADA
BLANCALIGERA
BLANCAPESADA
NEGROLIGERO
Imagen tio+ordenador:https://pixabay.com
Todos los experimentos de tiradas de objetos son los datos con lo que la máquina va a poder aprender para luego predecir, dado dos objetos nuevos y sus características, cuál de ellos va a llegar antes al suelo.
Analogía original de la consultora polaca AlgolyticsImagen tio+ordenador:https://pixabay.com
Machine Learning
“Se trata de dotar a las máquinas de la habilidad de aprender a partir de ejemplos.”
Machine Learning
“Las máquinas aprenden a partir de la experiencia.”
Machine Learning
“Aplicar y ajustar algoritmos que buscan patrones en los datos que permitan establecer un modelo predictivo.”
ORDENADOR
SALIDA
ENTRADAS(OBSERVACIONES)
PROGRAMA
ORDENADOR
SALIDAENTRADAS(OBSERVACIONES))
PROGRAMA
PROGRAMADOR
PROGRAMACIÓN TRADICIONAL MACHINE LEARNING
Machine Learning“Field of study that gives computers the ability to learn without being explicitly programmed.” Arthur Samuel, 1959
“A computer program is said to learn from experience E with respect to some class of tasks T if its performance, as measured by P, improves with experience E.” Tom M Mitchell, 1997
“Los programas con Machine Learning aprenden de la experiencia.”
¿QUÉ PASA CON MACHINE LEARNING Y BIG DATA?
“Cría datos y tendrás muchos.”
Lo que vale es extraer valor del dato.
¿QUÉ PASA CON MACHINE LEARNING Y DATA SCIENCE?
http://drewconway.com/ 2010DATA SCIENCE
ALGORITMO MACHINE LEARNING
DATOS
MODELOPREDICTIVO
DATAMINING CONOCIMIENTO
QUE PUEDO EXTRAERDE LOS DATOS
MODELO QUE ME PERMITE PREDECIR SOBRE NUEVOS DATOS
MACHINE LEARNING
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
OBTENERDATOS
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
OBTENERDATOS
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
¡¡NUNCA SE HACE UN MODELADO SIN MIRAR ANTES LOS
DATOS!!
EL TRABAJO DE PREPROCESO SE LLEVA
EL MAYOR TIEMPO DEL PROCESO!!
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
DIVIDIRDATOS
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
DIVIDIRDATOS
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data scienceENTENDER PROBLEMA
Definir objetivos
PREPARAR Y LIMPIAR DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
EVALUAR MODELOEXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
Proceso Machine Learning
ELEGIR MEJOR MODELO
El Titanic
?
Hombre, 35 años, tercera clase ?
Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
ELEGIR MEJOR MODELO
PREPARAR Y LIMPIAR DATOS
EVALUAR MODELOEXPLORAR
Y ANALIZAR
ENTENDER PROBLEMA
Definir objetivos
ENTENDER PROBLEMA
Definir objetivos
Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
ELEGIR MEJOR MODELO
PREPARAR Y LIMPIAR DATOS
EVALUAR MODELOEXPLORAR
Y ANALIZAR
ALGORITMO MACHINE LEARNING
DATOS
ENTENDER PROBLEMA
Definir objetivos
ENTENDER PROBLEMA
Definir objetivos
DATASET
NEW DATA
PREDICCIÓN!!
NUEVOS DATOS
DATASETTRAIN
DATASETVAL
MODELOCLASIFICACIÓN
Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
ELEGIR MEJOR MODELO
PREPARAR Y LIMPIAR DATOS
EVALUAR MODELOEXPLORAR
Y ANALIZAR
ENTENDER PROBLEMA
Definir objetivos
ENTENDER PROBLEMA
Definir objetivos
Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE DECISIONES
ELEGIR MEJOR MODELO
PREPARAR Y LIMPIAR DATOS
EVALUAR MODELOEXPLORAR
Y ANALIZAR
ENTENDER PROBLEMA
Definir objetivos
ENTENDER PROBLEMA
Definir objetivos
MODELOCLASIFICACIÓN
Matriz de confusión
En “general”,un modelo buenoes aquel que“generaliza” bien.
PELIGRO: Overfitting!!
PELIGRO: Overfitting!!
La mayoría de métodos estadísticos y de Machine Learning usan alguna forma de REGULARIZACIÓN para que se pueda limitar el SOBREAJUSTE.
Algoritmosde Machine
Learning
Sospechosos habituales
Regresión LinealRegresión LogísticaÁrboles de DecisiónRandom ForestSVMKNNK-means
Tipos de “learning”
SUPERVISED&
UNSUPERVISED(& SEMI-SUPERVISED)
ALGORITMO MACHINE LEARNING
DATOS MODELO
PREDICCIÓN!!
NUEVOS DATOS
Entradas Respuesta Predicciónrespuesta
Nuevas entradas
Supervisado
ALGORITMO MACHINE LEARNING
DATOS MODELO
Entradas
CLUSTERINGREDUCCIÓN
No supervisado
Supervisado No supervisado Regresión
Clasificación
Clustering
Reducción de variables
Supervisado No supervisado Regresión
Regresión LinealÁrboles de Decisión
Random ForestSVM
Regresión LogísticaSVM
Árboles de DecisiónRandom Forest
KNN
Clasificación
K-Means
Clustering
PCA
Reducción de variablesA
B
RegresiónLineal
El caballo de batalla
REGRESIÓ
N
Slide tomada prestada de http://www.slideshare.net/benfreundorfer
Slide tomada prestada de http://www.slideshare.net/benfreundorfer
Y=β0+β1X
Slide tomada prestada de http://www.slideshare.net/benfreundorfer
Y=β0+β1X
Slide tomada prestada de http://www.slideshare.net/benfreundorfer
Y=β0+β1X
RegresiónLogística
Clasificación
CLASIFICADOR
Fuente:es.wikipedia.org
Árbolesde decisión
Fácil de entender, fácil de explicar
CLASIFICADOR
SVMSUPPORT VECTOR MACHINE
“Lo peta”
CLASIFICADOR
El hiperplano
R2
Más alta dimensión, más separabilidad.
Las SVM se basan en aplicar funciones (llamadas de kernel) que transforman el espacio de puntos original en un espacio de mayor dimensión.
Las SVM se basan en aplicar funciones (llamadas de Kernel) que transforman el espacio de puntos original en un espacio de mayor dimensión, donde encontrar un hyperplano que separe los datos.
Función de Kernel→Más alta dimensión!!
Kernel Trick!!!
La maldición de los SVM es evitar el sobreajuste.
Random ForestEL PODER DE MUCHOS
CLASIFICADOR
Random ForestEL PODER DE MUCHOS
CLASIFICADOR
DEL EN-SEM-BLE
KNNCómo son mis vecinos
CLASIFICACIÓN
K-MeansAgrupaciones, segmentación
CLUSTERING
Text MiningMachine learning aplicado al dato no estructurados de tipo texto.
FUÍ UNA MONGUER PENSANDO QUE ME DARÍA TIEMPO A EXPLICAR ESTO.
En resumen...
ResumenEl dato no habla por nosotros, nosotros hablamos por el dato.
Machine Learning consiste en que las máquinas aprendan sin programación explícita.
Las máquinas aprenden de la experiencia.
Hay que saber: algoritmos, mates, estadística, programación y análisis, y… sensores,
IoT, data storage, data management, y… conocer los contextos de aplicación.
Machine Learning nos rodea ahora y cada vez más.
Esto ha sido una explicación berserker y hay todo un mundo ahí fuera.
Dónde aprender, recursos...
OS Tools & Pay-as-you-go services
Comentarios?¿Preguntas
Machine Learning a lo Berserker
@zigiella, 10/2016 Craftsmanship Barcelona
GRACIAS ;)