Séquençage à Haut Débit
C.ROUMIER, Laboratoire d’Hématologie, CHRU LILLE,
Inserm U837, IRCL
20,000-100,000 measurements per
experiment
44000 à >1,000,000 measurements per
experiment
60 Gigabases read per experiment
Glass slides(1998-2000)
Affymetrix, Nimblegen, Agilent, Illumina,… (1995-2005)
High Througput Sequencing: Roche, Illumina, Applied,…(2006-)
Bref Historique des technologies haut débits
Massively Parallel Throughput – not only GigaBasesMassively Parallel ThroughputMassively Parallel Throughput –– not only GigaBasesnot only GigaBases
50M
V1
100M
V2
160M
V3
Mappable tags
300M
V3.5
450M
V4
• SOLiD™ System technology
• Technologie de séquençage massivement parallèle • 300 millions de séquences "étiquetées" (tags) sur une seule
lame avec la possibilité de lancer deux lames totalement indépendantes dans chaque run.
• La taille des fragments lues : entre 35 et 50 bases, dans un format simple tag ou tags accouplés.
• Exactitude de lecture est >99,94% • Chimie de séquençage : ligation des sondes et codage
dinucléotidique .
Caractéristique de la technologie Solid Applied
SOLiD™ Workflow Overview
Application specificData Analysis
Application specificData Analysis
Emulsion PCR &
substrate preparation
Emulsion PCR &
substrate preparation
Imaging and Primary/Secondary
analysis
Imaging and Primary/Secondary
analysis Sequencing chemistry
Sequencing chemistry
Application specificsample preparation
Application specificsample preparation
Methode Sanger dideoxynucleotide triphosphates (ddNTPs) : DNA chain terminators.
DNA primerDNA polymeraseRadioactively or fluorescently labeled nucleotide and modified
nucleotides that terminate DNA strand elongation. 4 Réactions de sequence en // : (dATP, dGTP, dCTP and dTTP), DNA polymerase , un des dideoxynucleotides (ddATP, ddGTP, ddCTP, or ddTTP) chain‐terminating nucleotide sans le groupe groupe 3'‐OH requis pour la formation de laliaison phosphodiester.
Rappel
Etapes chimie SOLID3
1 : Préparation d’une librairie ( fragment à séquencer)Fragmentation de l’acide nucléique
Chimie SOLID3
Séquençage par ligation
Préparation d’une population clonale de billes en émulsion
Chaque goutte de l’émulsion se comporte comme un microréacteur de PCR contenant des nucléotides, enzyme de réaction (polymeras.e PCR reaction) et des amorces .
Amplification du fragment initial lié a la bille .
Modification des extremités 3’ autorisant une future liaison covalente à une lame de verre
Dépot des billes sur une lame de verre modifiée,liaison covalente extremité 3’ et verre
Dépot sur la lame, en 1, 2, 4 ou 8 segments
.Une amorce reconnait la séquence du primer P1 lié à la bille
Nature des oligos : 7 nucleotides (deux premiers spécifiques, 5 suivants non spécifiques
Competition pour la ligation entre ces diffrents oligos
Specificité de la sondedinucléortidique en interrogeant les deux premieres bases de la zone de ligation.
4 types d’oligonucléotides différents par leur fluorochrome de substitution.
5 cycles de ligations
Décalage du site d’initiation de la ligation par modification de l’amorce de séquence
Chaque base est lue deux fois
Codes flurochromes
AT
Première base (position 0) connue car c’est la dernière du primer
Color space
Base space
SOLiD™ System technology features #12 Base Pair Encoding
Multiplexage :SOLiD™ System BarcodesFor Fragment Libraries
P2*P1* Target DNA
Sequencing read(25 ‐ 50 bases)
BC read(5/10 bases)
10 colors – 104 barcodes5 colors – 16 barcodes
SOLiD™ System A massively parallel sequencing concept
Assemble
Sequence Analysis
Deep Sequencing(Somatic Mutations, Pools)
Whole GenomeRe‐sequencing
Targeted Re‐sequencing
de novo Sequencing
Use Tags to determine Sequence and structure of DNA
Reséquençage complet de génome entier.
• Un génome humain total peut être séquencé avec une profondeur de 20 xen deux runs sur ce système
•Profondeur 1X : couverture d’un génome haploïde 3 Milliards de bases(suffisante pour la détection de 95% des mutations hétérozygotes)
•Coût total de 32.000 Euro,
•International Cancer Genome Consortium :démembrer les variations et anomalies au niveau de l’ADN participant à la cancérogenèse.
Analyse des variations structurales du génome.
• CGH arrays limite ses investigations à la détection de variation du nombre de copie de gènes,
• la technologie de séquençage massivement parallèle autorise la détection :– des insertions,– des délétions, – des duplications, – des translocations réciproques ou ;non,– des inversions peri et paracentriques
SOLiD™ OneView – overview Whole Genome view
Individual Chromosome view
Multiple SOLiD Application data‐multiple human whole genome data
Summary across Applications
subgroup analysis showeda possible adverse effect on overall survival among patients with normal‐karyotype AML and wildtype NPM1, regardless of FLT3 status (Fig. 4 in the Supplementary Appendix).
CN
NPMWT ‐FLT3itd
SOLiD™ System A massively parallel sequencing concept
Assemble
Sequence Analysis
Deep Sequencing(Somatic Mutations, Pools)
Whole GenomeRe‐sequencing
Targeted Re‐sequencing
de novo Sequencing
Use Tags to determine Sequence and structure of DNA
Reséquençage ciblé.
• Developpement et l’amélioration des performances des nouvelles méthodologies d’enrichissement de cibles génomiques
• PCR de longs fragments, • Méthodes d’hybridation sur oligo‐array • Capture en phase liquide• Targeted resequencing : régions connues, tailles de 30 Mbases,
• Cibler des gènes candidats impliqués dans la leucémogenèse• Coût modeste.
Target EnrichmentGenome partitioning, targeted re-sequencing, DNA capture…
Captures genomic material of interest for next generation sequencer (Illumina, SOLiD, 454 etc…)
Remaining genomic material discarded
– Addresses a major workflow bottleneck– Focus on a subset of the genome– Saves both time and money for downstream sequencing
Agilent’s SureSelect™
SureSelect Target Enrichment System*Developed in collaboration
with the Broad InstituteDr. Chad Nusbaum et al.
SureSelect DNA Capture Array
Developed in collaborationwith Cold Spring HarborDr. Greg Hannon et al.
Agilent 60mer Array
1-3 µg gDNA
1-5 µg gDNA(with WGA)
20 µg gDNA (unamplified)
0.5µg
Bait design may be optimized depending to the read length output of sequencer
• eArray currently restricts to 2x to 5x tiling for SE sequencing
March 11, 2010
120bp 6.6Mb
end-to-end
120bp 3.3Mb
2x-tiled
Probe design for DNA capture
Cibles: MSH2, MSH6 dans HNPCC
SOLiD™ System : reverse digital microarray
count
Tag Analysis
Small RNA Profiling
Whole Transcriptome Analysis“Gene Expression”
ChIP Seq (etc.)
Methylation Studies
CGH Seq / CNV
Meta‐Genomics
Count the Number of times Sequence Tags are found RNA‐chip
ChIP‐chip
CNV‐chip
MeDIP‐ CGH
RNA‐Seq
MeDIP‐Seq
ChIP‐Seq
CGH‐ Seq
•Applications quantitatives et qualitatives, Substituer ou venir compléter les technologies µarrays •Chacun des « tags » est un événement permettant de dénombrer la présence de chaquemolécule dans l’échantillon• Mesure quantitative et hautement sensible . •Chacune des étiquette est générée à partir de l’échantillon lui-même•Aucun biais de mesure comme ceux rencontrés sur une microarray
Human Proteome~500,000 ProteinsHuman Proteome~500,000 Proteins
Human Genome~25,000 Genes
Human Genome~25,000 Genes
protein modificationprotein modification
protein degradationprotein degradation
• Alternative splicing• Alternative 5’ start sites• Alternative 3’ end sites
• Alternative splicing• Alternative 5’ start sites• Alternative 3’ end sites
Ex 1 Ex 2 Ex 3 Ex 4
Microarray Probe
SAGE™ Tag
TaqMan™ Assays
SOLiD™ Systemreads
Alternative Splicing, Mutation Detection, Fusion Transcripts, Gene Expression
SOLiD RNA Applications Workflows
Total RNA
polyA RNA
RNA Fragments 50‐
150 bp
SREK
P1 P2
Alignment to Reference
SOLiD Libraries w/ Barcodes
Ribominus
Small RNAs (mi, pi, etc.)
PolyA Purist
rRNA Depleted (incl. ncRNA + polyA RNA
RNA Fragmentation (RNaseIII)
1 Day
2 Days
BC
1 Day
Validation
R.J. Taft and J.S. Mattick, http://genomebiology.com/2003/5/1/P1
Complex fungi
Prokaryotes
Urochordate
Simple eukaryotes
Invertebrates
Plants
VertebratesVertebrates
Ciona (urochordate)
Invertebrates
Plants
Complex fungi (Neurospora)
Simple eukaryotes (yeasts, plasmodium, Dictyostelium)
Prokaryotes
The proportion of noncoding DNA broadly The proportion of noncoding DNA broadly increases with developmental complexityincreases with developmental complexity
•• «« Small RNA Expression KitSmall RNA Expression Kit »»
•• Multiplexing with up to 20 barcodes, fullMultiplexing with up to 20 barcodes, full--slide, SOLiD 3.5slide, SOLiD 3.5
•• Analysis with pipeline v0.5Analysis with pipeline v0.5
NNNNNNNNNNNN NNNNNNNNNNNN
55’’--PP 33’’--OHOH
NNNNNNNNNNNN NNNNNNNNNNNN
NNNNNNNNNNNN
NNNNNNNNNNNN
NNNNNNNNNNNN
IAIA bcbc P2P2P1P1
41 bp41 bpSmall RNA Small RNA sequencesequence 48 bp48 bp
RNA sample + RNA sample + adaptorsadaptors
Ligation Ligation
Reverse Reverse transcriptiontranscription
Rnase HRnase H
PCRPCR
Page Page purificationpurificationMultiplex => CostMultiplex => Cost--effectiveeffective
Small RNA profiling by HTSSmall RNA profiling by HTS