Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Grandes proyectos genómicos
• El proyecto Genoma Humano
• El proyecto 1000 Genomas
• The 100,000 Genomes Project
• Roadmap Epigenomics Project
• Encode
• The 4D Nucleome Project
• Secuenciación de células únicas
• Genómica personalizada
• …
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
El Proyecto Genoma Humano
• Fue una iniciativa internacional lanzada en la década de los 90 del pasado siglo para mapear y secuenciar el conjunto de genes del ser humano (genoma)
• Completado en 2003 con la publicación de la primera secuencia de referencia del genoma humano.
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Hoy ya vamos por el ensamblado de referencia hg38 del
genoma humano: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39
GRCh38.p13
Description: Genome Reference Consortium Human Build 38 patch release 13
(GRCh38.p13)
Organism name: Homo sapiens (human)
BioProject: PRJNA31257
Submitter: Genome Reference Consortium
Date: 2019/02/28
Assembly type: haploid-with-alt-loci
Release type: patch
Assembly level: Chromosome
Genome representation: full
RefSeq category: reference genome
Contigs are continuous stretches of sequence
containing only A, C, G, or T bases without gaps
Scaffolds are created by chaining contigs together
using additional information about the relative
position and orientation of the contigs in the
genome
There are already 227 assemblies for this organism!
Global statisticsNumber of regions with alternate loci or patches 358
Total sequence length 3,099,706,404
Total ungapped length 2,948,583,725
Gaps between scaffolds 349
Number of scaffolds 472
Scaffold N50 67,794,873
Scaffold L50 16
Number of contigs 998
Contig N50 57,879,411
Contig L50 18
Total number of chromosomes and plasmids 24
Number of component sequences (WGS or
clone)35,613
Alineadores gráficos (como HISAT2 and HISAT-genotype) -> representaciones gráficas del genoma,
capaces de incorporar todas las variantes, tanto puntuales como estructurales, en un solo pan-genoma.
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Next Generation Sequencing (NGS), PacBio, Nanoporo… ->
Secuenciación de genomas a gran escala
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
N50 = ~161 kbp
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Figure 1. CHM13 whole-genome assembly and validation. (a) De novo assembly of the
CHM13 genome using 39× of ultra-long Nanopore sequencing combined with 70× PacBio
sequencing. Gapless contigs are illustrated as blue and orange bars next to the chromosome
ideograms (two colors used only to better highlight contig breaks). Several chromosomes are
broken only at centromeric regions (e.g. chr10, chr12, chr18, etc.). Large gaps between contigs
(e.g. middle of chr1) indicate sites of large heterochromatic blocks or rDNA arrays where no
GRCh38 reference sequence is available. (b) The X chromosome was selected for manual
assembly, and was initially broken at three locations: the centromere (artificially collapsed in the
assembly), a large segmental duplication (DMRTC1B, 120 kbp), and a second segmental
duplication with a paralog on chromosome 2 (134 kbp). The relative placement of gaps in the
GRCh38 reference are shown in the annotation track in black, known segmental duplications
that are in red (with segmental duplications with paralogous sequence on the Y chromosome
indicated in pink). Positions of repeats larger than 100 kb are indicated with the repeat sizing
for use under a CC0 license.
This article is a US Government work. It is not subject to copyright under 17 USC 105 and is also made available
(which was not peer-reviewed) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity.
bioRxiv preprint first posted online Aug. 16, 2019; doi: http://dx.doi.org/10.1101/735928. The copyright holder for this preprint
(kbs) in the CHM13 genome (blue, tandem repeats and red, segmental duplications). Tandem
repeat classes, indicated in blue were resolved and evaluated by ddPCR and optical maps
when applicable. (c) Mis-assembly of the GAGE locus identified by the optical map (top), and
corrected version (bottom) showing the final assembly of 19 (9.5 kbp) full length repeat units
and two partial repeats (d) Quality of the GAGE locus before and after polishing using unique
(single-copy) markers to guide the correct placement of the long reads. Dots indicate coverage
depth of the primary (black) and secondary (red) alleles recovered from mapped PacBio
high-fidelity (HiFi) reads (SNote 3). Because the CHM13 genome is effectively haploid, regions
of low coverage or increased secondary allele frequency indicate low-quality regions or potential
repeat collapses. Marker-assisted polishing dramatically improved allele uniformity of across the
entire GAGE locus.
Telomere-to-telomere assembly of a complete human X chromosome Date: 16th August 2019
Source: BioRxiv
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Secuenciación masiva
APLICACIONES
Variabilidad Regulación Epigenómica
Detección de variantes:
SNVs y CNVs,
inserciones y
deleciones
RNA-seq: expresión
génica
• Metilación diferencial
del ADN
• Metilación de histonas
• TFBSs
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
• Caracterización de la variación genética en el genoma humano
• La mayor parte de las variantes genéticas se localizan en las regiones no-
codificadoras del genoma elementos reguladores
• Cada uno de nosotros lleva por término medio entre 200 y 300 variantes de
pérdida de función (LOF)
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
A Auton et al. Nature 526, 68-74 (2015) doi:10.1038/nature15393
Population sampling
a, Polymorphic variants within sampled populations. The area of each pie is proportional to the number of
polymorphisms within a population. Pies are divided into four slices, representing variants private to a population
(darker colour unique to population), private to a continental area (lighter colour shared across continental group),
shared across continental areas (light grey), and shared across all continents (dark grey). Dashed lines indicate
populations sampled outside of their ancestral continental region. b, The number of variant sites per genome. c, The
average number of singletons per genome.
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Population labels: https://catalog.coriell.org/1/NHGRI/About/Guidelines-for-Referring-to-Populations
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
dbSNP contains 152.7 million human variants
One variant for every 20.5 base pairs in the human genome
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
6+ million coding variants
One variant every 5 or 6 base pairs in coding regions
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
The vast majority of known variants in our genome
lie outside of protein-coding exons
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Roadmap Epigenomics Consortium et al. Nature 518, 317-330 (2015) doi:10.1038/nature14248
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
• La ‘Encyclopedia of DNA Elements’ (ENCODE) surge de una colaboración internacional iniciada en
2003.
• El objetivo de ENCODE es elaborar un catálogo exhaustivo de todos los elementos funcionales en el
genoma humano, incluyendo tanto ARNs como proteínas, asi como aquellos elementos reguladores que
controlan el tipo celular y el momento del desarrollo en que un gen es activo.
El proyecto ENCODE
• La cuestión es: la suma de los exones de los aprox. 21.000 genes humanos no llegan al 2% del genoma
¿para que sirve el 98% restante? ¿es ADN basura?
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Principales hallazgos de ENCODE
La mayor parte del genoma (80.4%) se puede asociar con al menos una función
en alguno de los 147 tipos celulares analizados. Puesto que puede haber hasta
2.000 tipos celulares, este porcentaje podría llegar a ser mucho más alto!
Los elementos específicos de primates están sometidos a selección natural
deben ser funcionales.
Se han descubierto 399.124 enhancers y 70.292 promotores.
Muchas de los elementos funcionales encontrados se localizan en las regiones
no-codificadoras (fuera de los genes).
Los SNPs asociados con enfermedades mediante GWAS abundan en las
regiones no-codificadoras.
Muchas enfermedades se asocian con un determinado factor de transcripción
que varía entre tipos celulares.
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Felix Muerdter & Alexander Stark, Nature 512, 374–375 (28 August 2014)
Más de 1600 nuevos conjuntos de datos, lo que hace un total de 3300 entre ENCODE y
modENCODE
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Cautelas sobre el proyecto ENCODE (extraidas de las publicaciones de 2014):
“…although they are extremely data-rich, the papers expose how data sets that
are created to catalogue all functional elements under standardized conditions
are not sufficient for understanding the regulation of transcription, chromatin
biology and enhancer function, nor the evolution of these mechanisms.”
Según Dan Graur esto quiere decir que:
• Not every piece of chewing gum attached to the soles of your shoes is
functional.
• Moreover, the function of the sole of your shoe to which the chewing gum
stuck is NOT to bind chewing gum.
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Eugene V. Koonin (2016) The meaning of biological information. Phil. Trans. R. Soc. A 2016 374 20150065; DOI: 10.1098/rsta.2015.0065.
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
The 4D Nucleome project
J Dekker et al. Nature 549, 219–226 (14 September 2017) doi:10.1038/nature23884
Data obtained with imaging and chromosome conformation capture-based assays can be used for building spatial and
dynamic models of chromosomes using two main approaches. In the data-driven approach, experimental data are used
directly to generate ensembles of conformations that reproduce the experimental observations. In the de novo approach,
ensembles of conformations are built according to known or hypothesized physical or biological processes. Models are
then selected based on their agreement with experimental data.
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Secuenciación de células únicas
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
Genómica personalizada
The Personal Genome Projecthttps://www.personalgenomes.org/
Medicina personalizada, farmagenómica…
Prof. Dr. José L. Oliver Universidad de Granada http://bioinfo2.ugr.es/oliver/
El futuro de la genómica…
• Muchos hospitales tienen ya departamentos de medicina genómica
• Los secuenciadores serán del tamaño de los USBs (ya los hay!)
• Miles de test genéticos personales estarán disponibles… en los supermercados
• Para 2025, se habrán secuenciado ya millones de genomas
Dawn Field, 2015. Perfect genetic knowledge, AEON magazine