Date post: | 07-Jul-2015 |
Category: |
Documents |
Upload: | edivaldo-junior |
View: | 1,391 times |
Download: | 3 times |
1
Strategies for genome assembly, using data from next-generation sequencing (NGS)
Jedson Ferreira Cardoso
2
- Conceito: genoma, read (leitura), contigs, gráfico, k-merConceito: genoma, read (leitura), contigs, gráfico, k-mer- Alinhamento e Montagem de GenomasAlinhamento e Montagem de Genomas- EstratégiasEstratégias
- Pré-processamentoPré-processamentoAvaliar Leituras (reads);Avaliar Leituras (reads);
Tamanho, HomopolimerosTamanho, Homopolimeros;;Remover Possíveis ContaminantesRemover Possíveis Contaminantes
- Algoritmos de MontagemAlgoritmos de Montagem- Montagem Montagem de novode novo
– Overlap-layout-consensus (OLC)Overlap-layout-consensus (OLC);;– Algoritmos Gulosos;Algoritmos Gulosos;– Caminho EurelianoCaminho Eureliano
- Montagem Montagem por Referênciapor Referência– Alinhamento das leituras;Alinhamento das leituras;– Considera-se diferenças entre as sequencias (indel, SNPs);Considera-se diferenças entre as sequencias (indel, SNPs);– Smith - Waterman.Smith - Waterman.
- Métricas de MontagemMétricas de MontagemN50N50
- ConsensuConsensu- ScaffoldScaffold
N50 (Métricas)N50 (Métricas)
Agenda
3
GenomaGenoma
• Um genoma pode ser definido como todo o conjunto de informações genéticas de um organismo, sendo constituído usualmente por uma ou mais moléculas de DNA, na vasta maioria dos seres, ou RNA, no caso de algumas famílias de vírus.
4
Montagem de GenomaMontagem de Genoma
5
Tecnologias de Leituras (Reads)Tecnologias de Leituras (Reads)
6
Tipos de Leituras (Reads)Tipos de Leituras (Reads)
7(RITZ; BASHIR; RAPHAEL, 2010)
Strobe (Reads)Strobe (Reads)
8
Leituras (reads) do genomaLeituras (reads) do genoma• • Fragmentos curtos do genomaFragmentos curtos do genoma
– Não sei onde eles se originam no genomaNão sei onde eles se originam no genoma– Não sei a sua orientação (vertente)Não sei a sua orientação (vertente)
• • SobreposiçãoSobreposição- Assumindo que temos uma amostragem do genoma- Assumindo que temos uma amostragem do genoma
• • Contem errosContem erros- base com erro, adição de bases e bases ignoradas- base com erro, adição de bases e bases ignoradas
• • Representam todo o genomaRepresentam todo o genoma- Você ganha mais, mas a cobertura não é uniforme- Você ganha mais, mas a cobertura não é uniforme
Mundo IdealMundo Ideal Leituras longas e livre de erros (Leituras longas e livre de erros (unambiguous)) Problema simples p/ deduçãoProblema simples p/ dedução
Mundo RealMundo Real Leituras curtas e propensas a erros (Leituras curtas e propensas a erros (ambiguity)) Problema de inferência complicadaProblema de inferência complicada
27/10/2008 9
D Sequence each clone
Individualsequence reads
GapContig A Contig B
Contig assemblyE
Sequenciamento Shotgun
Leituras de NGS
O que é a montagem do genoma?O que é a montagem do genoma?
De novoDe novo: é o : é o processo de processo de reconstrução reconstrução das seqüencias das seqüencias de DNA de um de DNA de um organismo a organismo a partir de suas partir de suas seqüencias de seqüencias de leitura.leitura.
10
Reference Mapping
DeNovo
≠≠
11
Confusões (Montagem)Confusões (Montagem)
• Montagem por Referência (Reference Assembly)Montagem por Referência (Reference Assembly)– Temos seqüência muito semelhante ao genoma em estudo;Temos seqüência muito semelhante ao genoma em estudo;– Leituras são alinhadas contra a referência;Leituras são alinhadas contra a referência;– Pode orientar, mas pode nos induzir em erroPode orientar, mas pode nos induzir em erro– Usado muito no genoma humanoUsado muito no genoma humano
Montagem Montagem De NovoDe Novo ( (De NovoDe Novo Assembly) Assembly)– Não há informação prévia sobre o genoma;Não há informação prévia sobre o genoma;– Entrada somente das leituras seqüenciadas;Entrada somente das leituras seqüenciadas;– Necessário para novos genomas;Necessário para novos genomas;– Ou onde ele difere do exemplo da referência, exemplo Cancer.Ou onde ele difere do exemplo da referência, exemplo Cancer.
Alinhamento e Montagem de Genomas
Montagem De Novo ( Ab Initio)
Montagem com a ReferênciaReferência
Consenso:
Consenso:
13
Draft Draft vs vs Genoma FinalizadoGenoma Finalizado
• De novo: De novo: Montagem das leituras em Montagem das leituras em contigscontigs– Fragmentos únicos do DNAFragmentos únicos do DNA
Agrupando contigs em Agrupando contigs em ScaffoldsScaffolds– Somente as leituras pareadas ou strobeSomente as leituras pareadas ou strobe– Scaffolds contém gaps de nucleotideos ambiguosScaffolds contém gaps de nucleotideos ambiguos
Fechando GapsFechando Gaps– Desenhando primers ao longo dos gapsDesenhando primers ao longo dos gaps– Seqüenciando o produto resultante da PCRSeqüenciando o produto resultante da PCR
ValidandoValidando– Alinhe novamente as leituras contra o Draft do GenomaAlinhe novamente as leituras contra o Draft do Genoma– Confira contra um Confira contra um mapamapa (SAMAD (SAMAD et al.et al., 1995), 1995)
14
Contigs
Reads Unmapped
Assembling / DeNovo (gsAssembler)
Sequencing / 454 (Verify with gsRunBrowser)(files.sff)
Remove Contaminants (gsMapper)
Reference
Reads
Comparing Seqs with tBLASTx (Local)
Database(NCBI)
Contigs
Recovering viral sequencesContigs
tBLASTx (output)
Shell script+ Contigs viral
A
B
C
D
E
FGenerate scaffold
Seg. L
Seg. M
Seg. S
GFind the coding region
(ORF- Finder)
Seg. L
Seg. M
Seg. S
ORF
ORF
ORF
Genomic Annotation / Submission (Genbank)
Seg. L
Seg. M
Seg. S
Polimerase
Gn NSm Gc
N
NSs
H
Genbank (Databases)
+
15
ARQUIVO.sff
Remover contaminantesReferência/ contaminante
Leituras totais
Montagem por referência
Montagem de novo
Referência
Leituras não mapeadas
Referência
Leituras não mapeadas
Comparar Seqs. c/ tBLASTxContigs
NCBI
Recuperar seqs. viraisContigs
(Contigs virais)+tBLASTx(informação)
Ordenar contigs com MAUVE/ Gerar scaffold
Contigs
Scaffold de novo
1º 2º 3º
Referência
Scaffold mapeamento
Gerar scaffold
Selecionar melhor referência
(Referência genômica viral)
Retirar consenso entre scaffoldsScaffold mapeamento
Scaffold de novo
Consenso
Gerar draft do genomaDraft genômico
Shell script
Realizar anotação genômica/ submeter no GENBANK
Genoma completoanotado
GENBANK (banco de dados)
ESTRATÉGIA I
16
RO_22000 > Contaminants(MMusculus)numMappedReads = 75372, 91.17%;
numMappedBases = 19983419, 84.45%;
inferredReadError = 1.40%, 244806;
numberFullyMapped = 39916, 48.28%;
numberPartiallyMapped = 9567, 11.57%;
NumberUnmapped = 4825, 5.84%;
numberRepeat = 12551, 15.18%;
numberChimeric = 13338, 16.13%;
numberTooShort = 2477, 3.00%;
17
Contigs X ReadsS
1 944>contig00011 length=944 numreads=76
LOCUS contig00011 944 bp linear 11-JUN-2012DEFINITION length=944 numreads=76 gene=isogroup00006 status=isotig.ACCESSION contig00011VERSION KEYWORDS .SOURCE Unknown. ORGANISM Unknown. Unclassified.FEATURES Location/Qualifiers source 1..944 CDS 53..787,53..787 /note="predicted coding region" /translation="MDFIFEEDDNITISSFNPDTLYEHFVVLMTSGTSDWLKAATIFF KKMKLIKEKMKISNIAMIPLKLGDLDIDVVNTYNPNAGEQRVGELSYTLNRLSGCMAR YTLEEYEKGSKELQEKIQLAIKNPLAIVKGVRPDNFKLYMAFSAGAEMFLSKFSLFPL AIMLRRIDSDDAPAAIAGKVLKQRLDAVAAIDWQNEKNVGLLKTAMAVVGGVSWKHSK VTEESLSFLAKAGVAKHILTKIKKGE"BASE COUNT 327 a 170 c 200 g 247 tORIGIN 1 ctccgataaa catttaaaaa caaaaccctt caaaagcctt atagttccag aaatggattt 61 tatttttgaa gaagacgata atataacaat aagctctttc aatccggaca cattgtatga 121 acattttgtt gttctgatga cctctggcac ctctgattgg cttaaagcag caactatctt 181 cttcaagaag atgaagctaa ttaaggaaaa gatgaaaatc tccaatattg ctatgattcc 241 gcttaaactg ggtgatctag acattgacgt tgtaaatact tacaatccaa atgccggaga 301 acagagagtc ggggaattat cgtataccct taacaggctg tccggctgca tggctcgata 361 cacgcttgag gaatatgaaa aagggagcaa agaactgcag gagaaaatcc agcttgcaat 421 caaaaaccca cttgcaatag tcaaaggagt aaggcctgac aacttcaaac tttacatggc 481 tttcagtgca ggagcagaga tgtttctatc aaaattcagc ttgttcccac ttgcaatcat 541 gctacgcaga attgactcag atgatgcacc tgctgctatc gctgggaaag tactaaaaca 601 gaggcttgat gctgttgctg caattgattg gcagaatgag aaaaatgttg gcttgcttaa 661 aactgcaatg gctgttgttg gaggtgtttc atggaaacat tctaaggtta cagaagagtc 721 attgagcttc cttgctaagg caggtgtagc caagcatatc ctaaccaaga tcaagaaggg 781 agagtaaatc caaacgcaaa aagcagaatc agaaacaaat tggcctcaaa attcaaaacc 841 aaagatttag aatctaatta gacaaaattg ggtgggcggt aggggaatta gcagctgcta 901 ttattattat aaaagacggt tagggttata aaatataaat gtat//
18
Esquema resumido: Montagem e anotação
20
Repetição, Repetição, RepetiçãoRepetição, Repetição, RepetiçãoUma repetição é um segmento de DNA que ocorre mais de uma vez no genoma
DNA repetitivoRepetições espalhadas de centenas de cópias de uma sequência• Sequência curta (~300 nucleótidos) – SINEs (“small interspersed elements”); por exemplo, sequências Alu
• Sequência longa (~6-7 k-b) – LINEs (“long interspersed elements”)
SINEs e LINEs são transcritos, e alguns dos LINEs codificam proteína, mas de função fisiológica desconhecida
21
Algoritmos de MontagemAlgoritmos de Montagem
• Modelo de DadosModelo de Dados– Overlap-Layout-Consensus (OLC)Overlap-Layout-Consensus (OLC)– Eurelian / de Bruijn Graph (DBG)Eurelian / de Bruijn Graph (DBG)
Métodos de BuscaMétodos de Busca– Greedy (Gulosos)Greedy (Gulosos)– Non-greedy (Não gulosos)Non-greedy (Não gulosos)
ParalelizaçãoParalelização– Multi-ThreadMulti-Thread– DistribuídoDistribuído
22
O Que é um K-mer?O Que é um K-mer?
• K-mer é uma sub-sequencia de comprimento KK-mer é uma sub-sequencia de comprimento K• Uma sequencia de comprimento L tem (L-K+1) K-mersUma sequencia de comprimento L tem (L-K+1) K-mers• Exemplo leitura de L=8 tem 5 K-mers quando K=4Exemplo leitura de L=8 tem 5 K-mers quando K=4
• – AGATCCGT• – AGAT• – GATC• – ATCC• – TCCG• – CCGT
23
O Que é um Grafo (Teoria)O Que é um Grafo (Teoria)• Não é um gráfico do ExcelNão é um gráfico do Excel
• Nós / VerticesNós / Vertices– A, B, C, D, E, F A, B, C, D, E, F
Linhas / ArcosLinhas / Arcos– Linhas entre nósLinhas entre nós
Grafo DirecionadoGrafo Direcionado– Ponta na seta das bordasPonta na seta das bordas
Grafo ponderadoGrafo ponderado– Numerais nas bordasNumerais nas bordas
24
Overlap - Layout - Consensus
• OverlapOverlap– Compara contra todos os pares;Compara contra todos os pares;– Constroi grafo: nós=leituras, bordas=overlapsConstroi grafo: nós=leituras, bordas=overlaps
LayoutLayout– Analisar / simplificar / limpar o gráfico sobreposiçãoAnalisar / simplificar / limpar o gráfico sobreposição – Determina o caminho HamiltonianoDetermina o caminho Hamiltoniano (NP-hard) (NP-hard)
ConsensusConsensus– Alinha as leituras ao longo do caminho utilizado para Alinha as leituras ao longo do caminho utilizado para
montagemmontagem– Bases utilizam votação ponderadaBases utilizam votação ponderada
25
OLC : Pairwise Overlap
• All against all pair-wise comparison– ½ N(N-1) alignments to perform [N=no. reads]– Each alignment is O(L²) [L=read length]
• In practice, use smarter heuristics– Index all k-mers from all reads– Only check pairs that share enough k-mers– Similar approach to BLAST algorithm
• Both approaches parallelizable– Each comparison is independent
26
OLC: Overlap Example
27
OLC: Overlap Graph
28
OLC: Layout - Consensus
29
OLC: Softwares
• Phrap, PCAP, CAP3– Smaller scale assemblers
• Celera Assembler– Sanger-era assembler for large genomes
• Arachne, Edena, CABOG, Mira– Modern Sanger/hybrid assemblers
• Newbler (gsAssembler)– Used for 454 NGS “long” reads– Can be used for IonTorrent flowgrams too
30
Eulerian approach
• Break all reads (length L) into (L-k+1) k-mers– L=36, k=31 gives 6 k-mers per read
• Construct a de Bruijn graph (DBG)– Nodes = one for each unique k-mer– Edges = k-1 exact overlap between two nodes
• Graph simplification– Merge chains, remove bubbles and tips
• Find a Eulerian path through the graph– Linear time algorithm, unlike Hamiltonian
31
DBG : simple
• Sequence– AACCGG
• K-mers (k=4)– AACC ACCG CCGG
• Graph
32
DBG : repeated k-mer
• Sequence– AATAATA
• K-mers (k=4)– AATA ATAA TAAT AATA (repeat)
• Graph
33
DBG: alternate paths
• Sequence– CAATATG
• K-mers (k=3)– CAA AAT ATA TAT ATG
• Graph
34
DBG: graph simplification
• Remove tips or spurs– Dead ends in graph due to errors at read end
• Collapse bubbles– Errors in middle of reads– But could be true SNPs or diploidity
• Remove low coverage paths– Possible contamination
• Makes final Eulerian path easier– And hopefully more accurate contigs
35
DBG: Software
• Velvet– Fast, relatively easy to use, multi-threaded
• AllPaths-LG– Designed for larger genomes, robust
• AbySS– Runs on cluster to get around RAM issues
• Ray– Designed for MPI/SMP clusters
36
AGORA: Assembly Guided by Optical RestrictionAlignment
• New algorithm called AGORA: Assembly Guided by Optical Restriction Alignment. AGORA is the first algorithm to use optical map information directly within the de Bruijn graph framework to help produce an accurate assembly of a genome that is consistent with the optical map information provided. Our simulations on bacterial genomes show that AGORA is effective at producing assemblies closely matching the reference sequences.
(Lin et al., 2012)
37
OLC vs DBG
• DBG– More sensitive to repeats and read errors– Graph converges at repeats of length k– One read error introduces k false nodes– Parameters: kmer_size cov_cutoff ...
• OLC– Less sensitive to repeats and read errors– Graph construction more demanding– Doesn't scale to voluminous short reads– Parameters: minOverlapLen %id ...
38
Métricas de MontagemMétricas de Montagem ( (Assembly metrics)
• Number of contigs/scaffolds– Fewer is better, one is ideal
• Contig sizes– Maximum, average, median, “N50” (next slide)
• Total size– Should be close to expected genome size
– Repeats may only be counted once
• Number of “N”s– N is the ambiguous base, fewer is better
39
The “N50” metric
• The N50 of a set of contigs is the size of the largest contig for which half the total size is contained in that contigs and those larger.– The weighted median contig size
Example:– 7 contigs totalling 20 units: 7, 4, 3, 2, 2, 1, 1– N50 is 4, as 7+4=11, which is > 50% of 20
Warning!– Joining contigs can increase N50 eg. 7+4=11– Higher N50 may mean more mis-assemblies
40
Scaffolding: method
• Scaffolding algorithm– constraint-based optimization problem
Most assemblers include a scaffolding module– Velvet, Arachne, COBOG, AbySS
Standalone scaffolder: Bambus– Part of AMOS package– Can handle various types of constraints– Uses some heuristics to find solutions
41
42
O que serve para um ´DATASET´ pode não servir para o próximo
Buscar alternativas que atendam ao objeto de estudo em foco.
43
Novo paradigma
Para Obter Diferencial Competitivo Devemos:
Automatizar rotinas físicas
Motivar as Pessoas DesenvolverAuto-capacitação
44
Novo paradigma
Tomadas de Decisões Rápidas
Inovação Organizacional rápida
Aquisição de informações contínuas
Distribuição de informações mais rápidas e diretas
Desafios e implicações
para pesquisa
45
Avaliação da Implantação de Pipeline
A clara avaliação dos riscosriscos do projetodo projeto passa pela análise dos possíveis possíveis impactosimpactos que o possa ter na pergunta biológica, lembrando-se sempre que BIOINFORMÁTICA, é estratégia e com elementos técnicos e organizacionais compatíveis, tendem a aumentar a produtividade sem sacrificar os objetivos humanos e sociais.
46
Avaliação de Sucesso e/ou Fracasso na Estratégia
Combinação de diferentes estratégias são os únicos meios plausíveis de definir e superar as dificuldades.
Planejamento Global
Método de Desenvolvimento
implantação da estratégia
Antes Durante Depois
47
Redes Computacionais e Organizacionais
OBS:
Ao implantar um sistema informatizado, é preciso levar em consideração como as informações são trabalhadas dentro da organização e qual o grau de
compartilhamento existente entre os departamentos.
Padronizar Informação
48
A maior recompensa do nosso trabalho não é o que nos pagam por ele, mas aquilo em que ele nos
transforma.(John Ruskin)
De nada serve ao homem queixar-se dos tempos em que vive. A única coisa boa que pode fazer é tentar
melhorá-los.(Thomas Carlyle)
“A morte do homem começa no instante em que ele desiste de aprender.”
(Albino Teixeira)
"A mente que se abre a uma nova idéia jamais voltará ao seu tamanho original."
(Albert Einstein)
“O poder oriundo da informação não está em possuí-la, mas em saber usá-la.”
(Tadeu Cruz)
REFERENCIAS
LIN, H. C. et al. AGORA: Assembly Guided by Optical Restriction Alignment. BMC Bioinformatics, v. 13, n. 1, p. 189, 2012.
MILLER, J. R.; KOREN, S.; SUTTON, G. Assembly algorithms for next-generation sequencing data. Genomics, v. 95, n. 6, p. 315-27, jun. 2010.
MYERS, E. W. The fragment assembly string graph. Bioinformatics (Oxford, England), v. 21 Suppl 2, p. ii79-85, 1 set. 2005.
PEVZNER, P. A; TANG, H.; WATERMAN, M. S. An Eulerian path approach to DNA fragment assembly. Proceedings of the National Academy of Sciences of the United States of America, v. 98, n. 17, p. 9748-53, 14 ago. 2001.
RITZ, A.; BASHIR, A.; RAPHAEL, B. J. Structural variation analysis with strobe reads. Bioinformatics (Oxford, England), v. 26, n. 10, p. 1291-8, 15 maio. 2010.
ZHAO, X. et al. EDAR: an efficient error detection and removal algorithm for next generation sequencing data. Journal of computational biology : a journal of computational molecular cell biology, v. 17, n. 11, p. 1549-60, nov. 2010.