El desafío de la biología computacionalen la medicina personalizada
Vera Pancaldi
Life Sciences,
Barcelona Supercomputing Center
Resumen de la charla
Introducción a la biología celular
La computación para la medicina personalizada
Ejemplos de proyectos
S Ecker, V Pancaldi, D Rico, A Valencia, Higher gene expression variability in the more aggressive subtype of chronic lymphocytic leukemia, Genome medicine, 2015
S. Ecker, V. Pancaldi, A. Valencia, S. Beck and D.S. Paul. Epigenetic and transcriptional variability shape phenotypic plasticityBioessays 2017
Variabilidad biológica
Biología celular
Cromatina: materia coloreada en el nucleo cellular(ADN+ARN+proteinas)
Desde el genoma hasta el epigenoma
Approximadamentela misma sequencia(ACATTGGG)
Epigenomas diferentes(propriedades de la cromatinaGenes activados, proteínas)
Fenotipos muy distintos!(aspecto y función celular)
La importancia del epigenoma
CELULAS HUMANAS
International Human Genome Project (2003)List human genesDiscover sequences of genes and non-coding regions
Encode: Encyclopedia of DNA Elements (2012)Datasets collected for hundreds of cell lines Mapping regulatory elements
IHEC International Human Epigenome Consortium (2016)Reference epigenomes of primary human cellsRoadmap: 111 cell types epigenomesBLUEPRINT: haematopoietic epigenomesEpigenetic levels:• cytosine modifications (methylation, hydroxymethylation,…)• histone marks• Genetic variation across population
4D Nucleome (2017-2018)• Map 3D structure using chromosome conformation capture• promoter-enhancer contacts• promoter-promoter contacts• Non-coding RNAs 7
Desde los genes hasta el nucleoma
Redes de hospitales, acceso a datos medicos
Para cada individuo podemos conocer detalles como:
• Genoma
• Expresión génica
• Epigenoma (por ejemplo metilación)
Esto nos ayuda a ver cada paciente como inidividuo
Buscamos soluciones específicas a sus problemas
Hacia la medicina personalizada
Avatars para medicina personalizada
http://www.cancer.gov/
Gomez et al, Brief Bioinfo 2017
Medicina personalizada:un problema de datos y computación
109 sequencing fragments
100 M sequencing fragments
Mass Spec proteomics.
E.g. Shotgun:600 M spectra,
200 M peptides
500 GB
Human genome3 GBases
20 GB
20 TB data
> 105
different RNAs expressed at different levels
20000 proteins> 106
different forms
Experimento tIpico Almacenamiento de datos
El desafío de la genómica
Applicaciones de HPC para medicina personalizada
Cancer: Disease stratification based on driver mutations
Diagnostico temprano: Sequencing circulating tumor DNA (liquid biopsy)
Enfermedades rara: Prevalence of genomic based diagnosis
Medicina regenerativa: Tissue engineering for transplantation based on genomic compatibility
Fármacos: Patient-specific prediction of efficacy and side effects
Computer vision: Classify pictures in dermatology, radiology, and other areas of medicine.
Remote devices: Integrate information for continuous patient monitoring
Data and text mining: Disease -Drug relations from Electronic Heath Records
Simulaciones: Case/disease specific diagnosis of the physiological consequences of drug administration.
Comorbilidad: la mayoría de pacientes >65 años
padecen 2 o más enfermedades a la vez
Investigaciones sobre resistencia a fármacos
Integración e interpretación de datos epigenómicos
Proyectos en medicina personalizada en el BSC
Patient-Patient Network
Stratified Comorbidity Network
Disease-Disease Network
Medir similitudes entre pacientes a nivel de expresión génicaCreación de una red de pacientes ( molecularmente parecidos)
Redes de comorbilidad estratificada
Riesgos relativos de cada enfermedadPositive Relative Risks
Para cada paciente:Establecer subtipos de enfermedadesIdentificar riesgos asociados al subtipo
Efectos secundarios de fármacosTerapias apropiadas
N.º
Cells Supply MEK inhibitor
Supply PI3K inhibitor
T=20 T=60
Growing cell
Quiescent cellMutan cell
Simulation work-flowBiological model
Modelos matemáticos de resistencia
Aplicaciones de métodos para estudiar redes sociales
a las redes de cromatina en 3D
Integración de datos epigenómicos en 3D
Recoger y almacenar datos
Correr modelos matemáticos y simulaciones
Aplicaciones de machine learning e inteligencia artificial para identificar patrones en los datos
La importancia de la supercomputación
Conclusiones
Muchos datos
Mucho todavia por descubrir
Por fin integración entre datos de pacientes (clinicos)
e investigadores, para realizar la promesa de la medicinapersonalizada
Indispensable: excelentes recursos computacionales
Agradecimientos
PCWAG total2500 Tumor-Normal genomes+ other omic data
30M CPU hours 1PB of dataBSC 9M CPU h 0.8 Tb of data
Colleagues at BSC and CNIOElias Campo (Iñaki Martín Subero)Hospital Clinic, Barcelona
Nicole Soranzo (Sanger Institute, UK)Peter Fraser (Babraham Institute, UK)Stephan Beck (University College London, UK)