03 strategies for genome assembly

1

Strategies for genome assembly, using data from next-generation sequencing (NGS)

Jedson Ferreira Cardoso

2

- Conceito: genoma, read (leitura), contigs, gráfico, k-merConceito: genoma, read (leitura), contigs, gráfico, k-mer- Alinhamento e Montagem de GenomasAlinhamento e Montagem de Genomas- EstratégiasEstratégias

- Pré-processamentoPré-processamentoAvaliar Leituras (reads);Avaliar Leituras (reads);

Tamanho, HomopolimerosTamanho, Homopolimeros;;Remover Possíveis ContaminantesRemover Possíveis Contaminantes

- Algoritmos de MontagemAlgoritmos de Montagem- Montagem Montagem de novode novo

– Overlap-layout-consensus (OLC)Overlap-layout-consensus (OLC);;– Algoritmos Gulosos;Algoritmos Gulosos;– Caminho EurelianoCaminho Eureliano

- Montagem Montagem por Referênciapor Referência– Alinhamento das leituras;Alinhamento das leituras;– Considera-se diferenças entre as sequencias (indel, SNPs);Considera-se diferenças entre as sequencias (indel, SNPs);– Smith - Waterman.Smith - Waterman.

- Métricas de MontagemMétricas de MontagemN50N50

- ConsensuConsensu- ScaffoldScaffold

N50 (Métricas)N50 (Métricas)

Agenda

3

GenomaGenoma

• Um genoma pode ser definido como todo o conjunto de informações genéticas de um organismo, sendo constituído usualmente por uma ou mais moléculas de DNA, na vasta maioria dos seres, ou RNA, no caso de algumas famílias de vírus.

4

Montagem de GenomaMontagem de Genoma

5

Tecnologias de Leituras (Reads)Tecnologias de Leituras (Reads)

6

Tipos de Leituras (Reads)Tipos de Leituras (Reads)

7(RITZ; BASHIR; RAPHAEL, 2010)

Strobe (Reads)Strobe (Reads)

8

Leituras (reads) do genomaLeituras (reads) do genoma• • Fragmentos curtos do genomaFragmentos curtos do genoma

– Não sei onde eles se originam no genomaNão sei onde eles se originam no genoma– Não sei a sua orientação (vertente)Não sei a sua orientação (vertente)

• • SobreposiçãoSobreposição- Assumindo que temos uma amostragem do genoma- Assumindo que temos uma amostragem do genoma

• • Contem errosContem erros- base com erro, adição de bases e bases ignoradas- base com erro, adição de bases e bases ignoradas

• • Representam todo o genomaRepresentam todo o genoma- Você ganha mais, mas a cobertura não é uniforme- Você ganha mais, mas a cobertura não é uniforme

Mundo IdealMundo Ideal Leituras longas e livre de erros (Leituras longas e livre de erros (unambiguous)) Problema simples p/ deduçãoProblema simples p/ dedução

Mundo RealMundo Real Leituras curtas e propensas a erros (Leituras curtas e propensas a erros (ambiguity)) Problema de inferência complicadaProblema de inferência complicada

27/10/2008 9

D Sequence each clone

Individualsequence reads

GapContig A Contig B

Contig assemblyE

Sequenciamento Shotgun

Leituras de NGS

O que é a montagem do genoma?O que é a montagem do genoma?

De novoDe novo: é o : é o processo de processo de reconstrução reconstrução das seqüencias das seqüencias de DNA de um de DNA de um organismo a organismo a partir de suas partir de suas seqüencias de seqüencias de leitura.leitura.

10

Reference Mapping

DeNovo

≠≠

11

Confusões (Montagem)Confusões (Montagem)

• Montagem por Referência (Reference Assembly)Montagem por Referência (Reference Assembly)– Temos seqüência muito semelhante ao genoma em estudo;Temos seqüência muito semelhante ao genoma em estudo;– Leituras são alinhadas contra a referência;Leituras são alinhadas contra a referência;– Pode orientar, mas pode nos induzir em erroPode orientar, mas pode nos induzir em erro– Usado muito no genoma humanoUsado muito no genoma humano

Montagem Montagem De NovoDe Novo ( (De NovoDe Novo Assembly) Assembly)– Não há informação prévia sobre o genoma;Não há informação prévia sobre o genoma;– Entrada somente das leituras seqüenciadas;Entrada somente das leituras seqüenciadas;– Necessário para novos genomas;Necessário para novos genomas;– Ou onde ele difere do exemplo da referência, exemplo Cancer.Ou onde ele difere do exemplo da referência, exemplo Cancer.

Alinhamento e Montagem de Genomas

Montagem De Novo ( Ab Initio)

Montagem com a ReferênciaReferência

Consenso:

Consenso:

13

Draft Draft vs vs Genoma FinalizadoGenoma Finalizado

• De novo: De novo: Montagem das leituras em Montagem das leituras em contigscontigs– Fragmentos únicos do DNAFragmentos únicos do DNA

Agrupando contigs em Agrupando contigs em ScaffoldsScaffolds– Somente as leituras pareadas ou strobeSomente as leituras pareadas ou strobe– Scaffolds contém gaps de nucleotideos ambiguosScaffolds contém gaps de nucleotideos ambiguos

Fechando GapsFechando Gaps– Desenhando primers ao longo dos gapsDesenhando primers ao longo dos gaps– Seqüenciando o produto resultante da PCRSeqüenciando o produto resultante da PCR

ValidandoValidando– Alinhe novamente as leituras contra o Draft do GenomaAlinhe novamente as leituras contra o Draft do Genoma– Confira contra um Confira contra um mapamapa (SAMAD (SAMAD et al.et al., 1995), 1995)

14

Contigs

Reads Unmapped

Assembling / DeNovo (gsAssembler)

Sequencing / 454 (Verify with gsRunBrowser)(files.sff)

Remove Contaminants (gsMapper)

Reference

Reads

Comparing Seqs with tBLASTx (Local)

Database(NCBI)

Contigs

Recovering viral sequencesContigs

tBLASTx (output)

Shell script+ Contigs viral

A

B

C

D

E

FGenerate scaffold

Seg. L

Seg. M

Seg. S

GFind the coding region

(ORF- Finder)

Seg. L

Seg. M

Seg. S

ORF

ORF

ORF

Genomic Annotation / Submission (Genbank)

Seg. L

Seg. M

Seg. S

Polimerase

Gn NSm Gc

N

NSs

H

Genbank (Databases)

+

15

ARQUIVO.sff

Remover contaminantesReferência/ contaminante

Leituras totais

Montagem por referência

Montagem de novo

Referência

Leituras não mapeadas

Referência

Leituras não mapeadas

Comparar Seqs. c/ tBLASTxContigs

NCBI

Recuperar seqs. viraisContigs

(Contigs virais)+tBLASTx(informação)

Ordenar contigs com MAUVE/ Gerar scaffold

Contigs

Scaffold de novo

1º 2º 3º

Referência

Scaffold mapeamento

Gerar scaffold

Selecionar melhor referência

(Referência genômica viral)

Retirar consenso entre scaffoldsScaffold mapeamento

Scaffold de novo

Consenso

Gerar draft do genomaDraft genômico

Shell script

Realizar anotação genômica/ submeter no GENBANK

Genoma completoanotado

GENBANK (banco de dados)

ESTRATÉGIA I

16

RO_22000 > Contaminants(MMusculus)numMappedReads = 75372, 91.17%;

numMappedBases = 19983419, 84.45%;

inferredReadError = 1.40%, 244806;

numberFullyMapped = 39916, 48.28%;

numberPartiallyMapped = 9567, 11.57%;

NumberUnmapped = 4825, 5.84%;

numberRepeat = 12551, 15.18%;

numberChimeric = 13338, 16.13%;

numberTooShort = 2477, 3.00%;

17

Contigs X ReadsS

1 944>contig00011 length=944 numreads=76

LOCUS contig00011 944 bp linear 11-JUN-2012DEFINITION length=944 numreads=76 gene=isogroup00006 status=isotig.ACCESSION contig00011VERSION KEYWORDS .SOURCE Unknown. ORGANISM Unknown. Unclassified.FEATURES Location/Qualifiers source 1..944 CDS 53..787,53..787 /note="predicted coding region" /translation="MDFIFEEDDNITISSFNPDTLYEHFVVLMTSGTSDWLKAATIFF KKMKLIKEKMKISNIAMIPLKLGDLDIDVVNTYNPNAGEQRVGELSYTLNRLSGCMAR YTLEEYEKGSKELQEKIQLAIKNPLAIVKGVRPDNFKLYMAFSAGAEMFLSKFSLFPL AIMLRRIDSDDAPAAIAGKVLKQRLDAVAAIDWQNEKNVGLLKTAMAVVGGVSWKHSK VTEESLSFLAKAGVAKHILTKIKKGE"BASE COUNT 327 a 170 c 200 g 247 tORIGIN 1 ctccgataaa catttaaaaa caaaaccctt caaaagcctt atagttccag aaatggattt 61 tatttttgaa gaagacgata atataacaat aagctctttc aatccggaca cattgtatga 121 acattttgtt gttctgatga cctctggcac ctctgattgg cttaaagcag caactatctt 181 cttcaagaag atgaagctaa ttaaggaaaa gatgaaaatc tccaatattg ctatgattcc 241 gcttaaactg ggtgatctag acattgacgt tgtaaatact tacaatccaa atgccggaga 301 acagagagtc ggggaattat cgtataccct taacaggctg tccggctgca tggctcgata 361 cacgcttgag gaatatgaaa aagggagcaa agaactgcag gagaaaatcc agcttgcaat 421 caaaaaccca cttgcaatag tcaaaggagt aaggcctgac aacttcaaac tttacatggc 481 tttcagtgca ggagcagaga tgtttctatc aaaattcagc ttgttcccac ttgcaatcat 541 gctacgcaga attgactcag atgatgcacc tgctgctatc gctgggaaag tactaaaaca 601 gaggcttgat gctgttgctg caattgattg gcagaatgag aaaaatgttg gcttgcttaa 661 aactgcaatg gctgttgttg gaggtgtttc atggaaacat tctaaggtta cagaagagtc 721 attgagcttc cttgctaagg caggtgtagc caagcatatc ctaaccaaga tcaagaaggg 781 agagtaaatc caaacgcaaa aagcagaatc agaaacaaat tggcctcaaa attcaaaacc 841 aaagatttag aatctaatta gacaaaattg ggtgggcggt aggggaatta gcagctgcta 901 ttattattat aaaagacggt tagggttata aaatataaat gtat//

18

Esquema resumido: Montagem e anotação

20

Repetição, Repetição, RepetiçãoRepetição, Repetição, RepetiçãoUma repetição é um segmento de DNA que ocorre mais de uma vez no genoma

DNA repetitivoRepetições espalhadas de centenas de cópias de uma sequência• Sequência curta (~300 nucleótidos) – SINEs (“small interspersed elements”); por exemplo, sequências Alu

• Sequência longa (~6-7 k-b) – LINEs (“long interspersed elements”)

SINEs e LINEs são transcritos, e alguns dos LINEs codificam proteína, mas de função fisiológica desconhecida

21

Algoritmos de MontagemAlgoritmos de Montagem

• Modelo de DadosModelo de Dados– Overlap-Layout-Consensus (OLC)Overlap-Layout-Consensus (OLC)– Eurelian / de Bruijn Graph (DBG)Eurelian / de Bruijn Graph (DBG)

Métodos de BuscaMétodos de Busca– Greedy (Gulosos)Greedy (Gulosos)– Non-greedy (Não gulosos)Non-greedy (Não gulosos)

ParalelizaçãoParalelização– Multi-ThreadMulti-Thread– DistribuídoDistribuído

22

O Que é um K-mer?O Que é um K-mer?

• K-mer é uma sub-sequencia de comprimento KK-mer é uma sub-sequencia de comprimento K• Uma sequencia de comprimento L tem (L-K+1) K-mersUma sequencia de comprimento L tem (L-K+1) K-mers• Exemplo leitura de L=8 tem 5 K-mers quando K=4Exemplo leitura de L=8 tem 5 K-mers quando K=4

• – AGATCCGT• – AGAT• – GATC• – ATCC• – TCCG• – CCGT

23

O Que é um Grafo (Teoria)O Que é um Grafo (Teoria)• Não é um gráfico do ExcelNão é um gráfico do Excel

• Nós / VerticesNós / Vertices– A, B, C, D, E, F A, B, C, D, E, F

Linhas / ArcosLinhas / Arcos– Linhas entre nósLinhas entre nós

Grafo DirecionadoGrafo Direcionado– Ponta na seta das bordasPonta na seta das bordas

Grafo ponderadoGrafo ponderado– Numerais nas bordasNumerais nas bordas

24

Overlap - Layout - Consensus

• OverlapOverlap– Compara contra todos os pares;Compara contra todos os pares;– Constroi grafo: nós=leituras, bordas=overlapsConstroi grafo: nós=leituras, bordas=overlaps

LayoutLayout– Analisar / simplificar / limpar o gráfico sobreposiçãoAnalisar / simplificar / limpar o gráfico sobreposição – Determina o caminho HamiltonianoDetermina o caminho Hamiltoniano (NP-hard) (NP-hard)

ConsensusConsensus– Alinha as leituras ao longo do caminho utilizado para Alinha as leituras ao longo do caminho utilizado para

montagemmontagem– Bases utilizam votação ponderadaBases utilizam votação ponderada

25

OLC : Pairwise Overlap

• All against all pair-wise comparison– ½ N(N-1) alignments to perform [N=no. reads]– Each alignment is O(L²) [L=read length]

• In practice, use smarter heuristics– Index all k-mers from all reads– Only check pairs that share enough k-mers– Similar approach to BLAST algorithm

• Both approaches parallelizable– Each comparison is independent

26

OLC: Overlap Example

27

OLC: Overlap Graph

28

OLC: Layout - Consensus

29

OLC: Softwares

• Phrap, PCAP, CAP3– Smaller scale assemblers

• Celera Assembler– Sanger-era assembler for large genomes

• Arachne, Edena, CABOG, Mira– Modern Sanger/hybrid assemblers

• Newbler (gsAssembler)– Used for 454 NGS “long” reads– Can be used for IonTorrent flowgrams too

30

Eulerian approach

• Break all reads (length L) into (L-k+1) k-mers– L=36, k=31 gives 6 k-mers per read

• Construct a de Bruijn graph (DBG)– Nodes = one for each unique k-mer– Edges = k-1 exact overlap between two nodes

• Graph simplification– Merge chains, remove bubbles and tips

• Find a Eulerian path through the graph– Linear time algorithm, unlike Hamiltonian

31

DBG : simple

• Sequence– AACCGG

• K-mers (k=4)– AACC ACCG CCGG

• Graph

32

DBG : repeated k-mer

• Sequence– AATAATA

• K-mers (k=4)– AATA ATAA TAAT AATA (repeat)

• Graph

33

DBG: alternate paths

• Sequence– CAATATG

• K-mers (k=3)– CAA AAT ATA TAT ATG

• Graph

34

DBG: graph simplification

• Remove tips or spurs– Dead ends in graph due to errors at read end

• Collapse bubbles– Errors in middle of reads– But could be true SNPs or diploidity

• Remove low coverage paths– Possible contamination

• Makes final Eulerian path easier– And hopefully more accurate contigs

35

DBG: Software

• Velvet– Fast, relatively easy to use, multi-threaded

• AllPaths-LG– Designed for larger genomes, robust

• AbySS– Runs on cluster to get around RAM issues

• Ray– Designed for MPI/SMP clusters

36

AGORA: Assembly Guided by Optical RestrictionAlignment

• New algorithm called AGORA: Assembly Guided by Optical Restriction Alignment. AGORA is the first algorithm to use optical map information directly within the de Bruijn graph framework to help produce an accurate assembly of a genome that is consistent with the optical map information provided. Our simulations on bacterial genomes show that AGORA is effective at producing assemblies closely matching the reference sequences.

(Lin et al., 2012)

37

OLC vs DBG

• DBG– More sensitive to repeats and read errors– Graph converges at repeats of length k– One read error introduces k false nodes– Parameters: kmer_size cov_cutoff ...

• OLC– Less sensitive to repeats and read errors– Graph construction more demanding– Doesn't scale to voluminous short reads– Parameters: minOverlapLen %id ...

38

Métricas de MontagemMétricas de Montagem ( (Assembly metrics)

• Number of contigs/scaffolds– Fewer is better, one is ideal

• Contig sizes– Maximum, average, median, “N50” (next slide)

• Total size– Should be close to expected genome size

– Repeats may only be counted once

• Number of “N”s– N is the ambiguous base, fewer is better

39

The “N50” metric

• The N50 of a set of contigs is the size of the largest contig for which half the total size is contained in that contigs and those larger.– The weighted median contig size

Example:– 7 contigs totalling 20 units: 7, 4, 3, 2, 2, 1, 1– N50 is 4, as 7+4=11, which is > 50% of 20

Warning!– Joining contigs can increase N50 eg. 7+4=11– Higher N50 may mean more mis-assemblies

40

Scaffolding: method

• Scaffolding algorithm– constraint-based optimization problem

Most assemblers include a scaffolding module– Velvet, Arachne, COBOG, AbySS

Standalone scaffolder: Bambus– Part of AMOS package– Can handle various types of constraints– Uses some heuristics to find solutions

41

42

O que serve para um ´DATASET´ pode não servir para o próximo

Buscar alternativas que atendam ao objeto de estudo em foco.

43

Novo paradigma

Para Obter Diferencial Competitivo Devemos:

Automatizar rotinas físicas

Motivar as Pessoas DesenvolverAuto-capacitação

44

Novo paradigma

Tomadas de Decisões Rápidas

Inovação Organizacional rápida

Aquisição de informações contínuas

Distribuição de informações mais rápidas e diretas

Desafios e implicações

para pesquisa

45

Avaliação da Implantação de Pipeline

A clara avaliação dos riscosriscos do projetodo projeto passa pela análise dos possíveis possíveis impactosimpactos que o possa ter na pergunta biológica, lembrando-se sempre que BIOINFORMÁTICA, é estratégia e com elementos técnicos e organizacionais compatíveis, tendem a aumentar a produtividade sem sacrificar os objetivos humanos e sociais.

46

Avaliação de Sucesso e/ou Fracasso na Estratégia

Combinação de diferentes estratégias são os únicos meios plausíveis de definir e superar as dificuldades.

Planejamento Global

Método de Desenvolvimento

implantação da estratégia

Antes Durante Depois

47

Redes Computacionais e Organizacionais

OBS:

Ao implantar um sistema informatizado, é preciso levar em consideração como as informações são trabalhadas dentro da organização e qual o grau de

compartilhamento existente entre os departamentos.

Padronizar Informação

48

A maior recompensa do nosso trabalho não é o que nos pagam por ele, mas aquilo em que ele nos

transforma.(John Ruskin)

De nada serve ao homem queixar-se dos tempos em que vive. A única coisa boa que pode fazer é tentar

melhorá-los.(Thomas Carlyle)

“A morte do homem começa no instante em que ele desiste de aprender.”

(Albino Teixeira)

"A mente que se abre a uma nova idéia jamais voltará ao seu tamanho original."

(Albert Einstein)

“O poder oriundo da informação não está em possuí-la, mas em saber usá-la.”

(Tadeu Cruz)

REFERENCIAS

LIN, H. C. et al. AGORA: Assembly Guided by Optical Restriction Alignment. BMC Bioinformatics, v. 13, n. 1, p. 189, 2012.

MILLER, J. R.; KOREN, S.; SUTTON, G. Assembly algorithms for next-generation sequencing data. Genomics, v. 95, n. 6, p. 315-27, jun. 2010.

MYERS, E. W. The fragment assembly string graph. Bioinformatics (Oxford, England), v. 21 Suppl 2, p. ii79-85, 1 set. 2005.

PEVZNER, P. A; TANG, H.; WATERMAN, M. S. An Eulerian path approach to DNA fragment assembly. Proceedings of the National Academy of Sciences of the United States of America, v. 98, n. 17, p. 9748-53, 14 ago. 2001.

RITZ, A.; BASHIR, A.; RAPHAEL, B. J. Structural variation analysis with strobe reads. Bioinformatics (Oxford, England), v. 26, n. 10, p. 1291-8, 15 maio. 2010.

ZHAO, X. et al. EDAR: an efficient error detection and removal algorithm for next generation sequencing data. Journal of computational biology : a journal  of computational molecular cell biology, v. 17, n. 11, p. 1549-60, nov. 2010.

Date post:	07-Jul-2015
Category:	Documents
Upload:	edivaldo-junior
View:	1,391 times
Download:	3 times

03 strategies for genome assembly

Documents