Download - Analisi di dati RNA-Seq - Functional Genomicsddlab.sci.univr.it/alberto/genomica_computazionale/... · Il trascrittoma • Il set completodi tuttiglimRNA di un organismoin un dato

Analisi di dati RNA-Seq

Alberto Ferrarini

Il dogma centrale della biologia

molecolareDNA

RNA

Replicazione

Trascrizione

PROTEIN

Traduzione

Geni sono trascritti da DNA ad mRNA che lascia il nucleo e viene tradotto in

proteine. 2

Il trascrittoma

• Il set completo di tutti gli mRNA di un organismo in un dato

momento.

• Il trascrittoma è dinamico e cambia a seconda delle condizioni

considerate. Differenti condizioni danno luogo a differenti profili di considerate. Differenti condizioni danno luogo a differenti profili di

espressione genica.

� Trascrittomica: lo studio del trascrittoma; l’analisi del trascrittoma in

diverse condizioni permette di inferire quali geni siano potenzialmente

coinvolti in un dato processo di sviluppo, risposta a stress, ecc…

Analisi di espressione genica

Prima delle tecnologie “omiche”

• Uno o pochi geni analizzati

per volta tramite analisi

Northern o PCR

quantitativa/semiquantitativa

Oggi

• Da poche migliaia di geni a

trascrittomi completi

analizzati in un singolo

esperimento.quantitativa/semiquantitativa

Microarray

Next Generation

Sequecing (NGS)4

Evoluzione delle tecnologie di analisi

del trascrittoma

1995- Sviluppati i primi

microarray basati su

spotting di molecole di

cDNA

Quantitative Monitoring of Gene

Expression Patterns with a Complementary

DNA Microarray- Schena et. al.

2002- High density

oligo microarrays2008- RNA-Seq:

sequenziamento dei

messaggeri basato su

tecnologie NGS

Sequenziamento del trascrittoma

Tessuto normale Tessuto tumorale

Campioni di interesseIsolamento

dell’RNA/mRNAFrammentazione

chimica

Immagine modificata da:

http://www.nature.com/nrc/journal/v6/n4/full/nrc1838.html

Conversione a cDNA e

ligazione degli adattatori

Sequenziamento

AGTCGTGGATCCAT AGTCGTGGATCCAT





Milioni di read paired-end

Perché sequenziare l’RNA?

• Studi funzionali:comparazione

dell’espressione genica tra diverse condizioni

(sano-malato, diversi tessuti, risposta ad uno

stimolo, ecc…)stimolo, ecc…)

• Studio delle isoforme di espressione

• Identificazione di trascritti non annotati

• Studio RNA editing

• Identificazione di trascritti di fusione

Protocollo di analisi dati RNA-Seq

genome

reads

Allineamento su un

genoma di riferimento

Assegnamento delle read

Known gene

Unknown gene

Assegnamento delle read

ai geni annotati

Rilevazione di eventuali

geni “nuovi” non annotati

Quantificazione dell’espressione

e analisi statistica

Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008).

Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature

methods, 5(7), 621-8. doi: 10.1038/nmeth.1226.

Assegnamento delle read ai geni e

quantificazione dell’espressione genica

• Il numero di read che mappano su un gene è

proporzionale al livello di espressione

• I valori di espressione ottenuti dall’RNA-Seq deriva

dalla conta diretta delle read che mappano su un dalla conta diretta delle read che mappano su un

gene: misura digitale

• Non richiede la conoscenza a priori delle posizioni dei

geni

• Intervallo dinamico più ampio comparato a

microarray

Disegno sperimentale: numero di replicati

• Tre o più repliche biologiche

• Non sono generalmente richieste repliche tecnichedella stessa libreria ad RNA

• La correlazione R2 (Pearson) tra i livelli di espressionedegli RNA rilevati in comune tra 2 replicati biologicidovrebbe essere tra 0.92 e 0.98.degli RNA rilevati in comune tra 2 replicati biologicidovrebbe essere tra 0.92 e 0.98.

• Esperimenti con correlazioni inferiori a 0.9 devonovenire ripetuti o spiegati.

Disegno sperimentale: profondità di

copertura richiestaNumero di ORF rilevate al variare

della profondità

Numero di siti di inizio della

trascrizione al variare della profondità

Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature Rev. Retrieved from

http://www.nature.com/nrg/journal/v10/n1/authors/nrg2484.html

•Analisi di epressione differenziale: sono raccomandate 30 o più milioni di read

paired-end (uomo).

•Esperimenti destinati alla scoperta e caratterizzazione di nuovi geni/isoforme o

finalizzati ad una quantificazione molto solida delle isoforme richiede coperture

maggiori (fino a 100-200 M di frammenti)

http://encodeproject.org/ENCODE/protocols/dataStandards/RNA_standards_v1_2011_May.pdf

Disegno sperimentale: profondità di

copertura richiesta

Tarazona, S., Garcia-Alcalde, F., Dopazo, J., Ferrer, a., & Conesa, a. (2011). Differential expression in RNA-seq: A matter of depth. Genome Research.

doi:10.1101/gr.124321.111

Il numero di read richieste dipende anche dal tipo di RNA che vogliamo

caratterizzare.

Problematiche connesse con l’analisi di

dati RNA-Seq

• Allineamento delle read ottenute da librerie a cDNA su sequenze genomiche (per metodi basati su genoma di riferimento).

• Assemblaggio de novo delle read ottenute da • Assemblaggio de novo delle read ottenute da librerie a cDNA in putativi trascritti (per metodi che non utilizzano il genoma di riferiemento).

• Quantificazione dei livelli di epressione

• Analizzare l’espressione differenziale

Garber, M., Grabherr, M. G., Guttman, M., & Trapnell, C. (2011). Computational methods for transcriptome annotation and quantification using

RNA-seq. Nature methods, 8(6), 469–77. doi:10.1038/nmeth.1613

Metodi di ricostruzione del

trascrittoma

Metodi Metodi



Metodi

guidati dal

genoma

Metodi

indipendenti

dal genoma

Nel caso di metodi basati sul

genoma il primo passaggio è

l’allineamento delle read

ottenute dai frammenti al


Allineamento di read RNA-Seq ad un


genoma

esoni

introni

mRNAmRNA

In un esperimento RNA-Seq le read vengono generate dal sequenziamento delle estremità di

frammenti da 200-300 bp dell’RNA messaggero da cui le sequenze introniche sono state

rimosse dal macchinario di splicing durante la maturazione dell’mRNA.

� Alcuni frammenti saranno a cavallo delle giunzioni esone-esone



genoma

esoni

introni

mRNAmRNA

Read derivanti da frammenti contenuti completamente in singoli esoni mapperanno

correttamente con una distanza tra le read compatibile con le dimensioni della libreria



genoma

esoni

introni

mRNAmRNA

Coppie di read

mappanti su 2 esoni

diversi avranno una

dimensione dell’inserto

non compatibile con le

dimensioni della

libreria

Dimensioni libreria



genoma

esoni

introni

mRNAmRNA

Read a cavallo di una

giunzione esone-esone non

potranno essere mappate

correttamente dagli

algoritmi standard.



genoma

esoni

introni

mRNAmRNA

Read a cavallo di una

giunzione esone-esone non

potranno essere mappate

correttamente dagli

algoritmi standard.



genoma

esoni

introni

mRNAmRNA

Idealmente la read dovrebbe

essere spezzata in uno spliced

alignment che tenga conto

dell’introne

• Non mappare le read sovrapposte a giunzioni

esone-esone porterebbe alla sottostima

dell’espressione dei geni con tanti esoni

Utilizzo di un database di giunzioni di

splicing

Un database di giunzioni

[…]

Database

custom di

giunzioni note.

Un database di giunzioni

custom viene costruito

unendo le estremità degli

esoni.

Read spliced vengono rilevate

allineando le read non

mappanti sul database di

giunzioni.

Una limitazione di questo aproccio è che può rilevare

solo giunzioni note.

Wang, E. T., Sandberg, R., Luo, S., Khrebtukova, I., Zhang, L., Mayr, C., … Burge, C. B. (2008). Alternative isoform regulation in human tissue transcriptomes.

Nature, 456(7221), 470–6. doi:10.1038/nature07509

Metodi computazionali per allineamento

splittato di read su un genoma di riferimento

Gli approcci per l’allineamento delle read su un

genoma di riferimento si dividono in:

approccio exon-first• approccio exon-first

• approccio seed-extent

Approccio exon-first

• Nell’approccio exon-first

vengono prima allineate

tutte le read sul genoma.

• Le read che non mappano

utilizzate per trovare siti utilizzate per trovare siti

di splicing candidati.

• Software:

– Tophat

– MapSplice

– SpliceMap



TopHat

Pipeline scritta in Python e C++ basata su Bowtie e la libreria SeqAn

Versione pubblicata quando le read erano tendenzialmente < 50 bp

Identificazione ab initio dei siti di

splicing (fino a versione 0.8.3)• Bowtie mappa le read sul genoma

con un massimo di 2 mismatchnel seed e 10 allineamenti multipli (serve a riportare geni con copie multiple).

• Le read allineate vengono quindi assemblate in un consenso a cui vengono aggiunte 45 basi dalle vengono aggiunte 45 basi dalle regioni fiancheggianti.

• Vengono quindi identificati i possibili siti donatori e accettori di splicing canonici (GT-AG) verso le estremità di queste regioni.

• Le read non mappanti vengono mappate sui putativi siti di splicing.

TopHat 1.0

• Dalla versione 1.0 sfrutta le maggiore

lunghezza delle read

� Maggiore sensibilità

Unmappable read

Reference genome

30Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq.

Bioinformatics (Oxford, England), 25(9), 1105-11. doi: 10.1093/bioinformatics/btp120.

TopHat 1.0

Unmappable read

25nt




• Read non mappate da 75 basi (o più

lunghe) vengono splittate in 3 o più sub-

read da 25 basi che vengono mappate

indipendentemente.

Reference genome



indipendentemente.

TopHat 1.0

Unmappable read

25nt






read da 25 basi che vengono mappate

indipendentemente.

Reference genome



indipendentemente.

• Read con segmenti che possono essere

mappati solo in maniera non contigua

� Marcati come possibili read intron-

spanning

TopHat 1.0

Unmappable read

25nt






read da 25 basi mappate

indipendentemente.

Reference genome

L1 L2



indipendentemente.




spanning

• Il set di tutte le possibili combinazioni

dondatore-accettore viene descritto da:

L1+L2=k; 1 < L1 < k-1; L2 = k-L1

TopHat 1.0

Unmappable read

25nt







indipendentemente.

Reference genome

donor

site acceptor

site



indipendentemente.




spanning



L1+L2=k; 1 < L1 < k-1; L2 = k-L1

• k basi a monte del sito donatore

concatenate con k basi a valle

dell’accettore

TopHat 1.0

Unmappable reads

Allineamento delle

read non allineabili al







indipendentemente.



read non allineabili al

database di giunzioniindipendentemente.




spanning



L1+L2=k; 1 < L1 < k-1; L2 = k-L1

• k basi a monte del sito donatore

concatenate con k basi a valle

dell’accettore

Il genoma umano contiene circa 14,000 pseudogeni e molti pseudogeni hanno una

sequenza simile ad un gene annotato � read possono mappare sia sul gene che sul

corrispondente pseudogene

• L’allineamento su pseudogeni processati favorito rispetto all’allineamento sul gene nel

Limiti dei sistemi exon-first

L’allineamento su pseudogeni processati favorito rispetto all’allineamento sul gene nel

caso di read a cavallo di giunzioni esone-esone.

� La maggior parte delle read a cavallo di giunzioni “assorbite” da pseudogeni

Garber, M., Grabherr, M. G., Guttman, M., & Trapnell, C. (2011). Computational methods for transcriptome annotation and quantification using RNA-seq.

Nature methods, 8(6), 469–77. doi:10.1038/nmeth.1613 Kim, D., Pertea, G., Trapnell, C., Pimentel, H., Kelley, R., & Salzberg, S. L. (2013).

TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4), R36. doi:10.1186/gb-2013-

14-4-r36

Basato su Bowtie2 (migliore sensibilità per Indel)

Attua una serie di strategie per migliorare la sensibilità e la

specificità di allineamento.

�Riduce il problema di allineamenti scorretti dovuti a

pseudogeni

Workflow di TopHat2

1) transcriptome mapping

Se viene fornita un’annotazione (consigliato) c

c

• Se viene fornita un’annotazione (consigliato) TopHat2 allinea le read contro le sequenze del trascrittoma.

� aumenta la sensibilità e specificità verso trascritti noti.

c

TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4), R36. doi:10.1186/gb-2013-14-4-r36

Workflow di TopHat2

1) transcriptome mapping

• Le read che non mappano sui trascritti

annotati vanno al passaggio successivo

c


Workflow di TopHat2

2) genome mapping

c c

• Nel secondo passaggio le read che vengono mappate in modalità end-to-end sul genoma di riferimento

� solo le read che mappano completamente su un esone vengono allineate


Workflow di TopHat2

2) genome mapping

c c

• Read che non mappano completamente sul

genoma vanno al passaggio successivo.


Workflow di TopHat2

3) spliced mapping

• Read non mappate nel secondo passaggio vengono utilizzate per cercare i segnali di splicing (GT-AG, GC-AG, splicing (GT-AG, GC-AG, AT-AC).

• E’ stato inoltre integrato algoritmo per identificare breakpointdi fusione (da TopHat-Fusion)

Workflow di TopHat2

3) spliced mapping

• Nell’ultima fase di questo passaggio vengono

riallineate le read che si sovrappongono

minimamente con sequenze introniche

Soglia basata sulla edit-distance

• TopHat2 consente di indicare una soglia (t) basata sulla edit distance:

– Se una read allinea in un passaggio ma con una edit distance ≥ t essa verrà riallineata nei passaggi successivi per cercare un eventuale allineamento successivi per cercare un eventuale allineamento migliore.

– Se viene settata una soglia t = 0 tutte le read che mappano nel passaggio 1 verranno riallineate nei passaggi successivi � aumenta la sensibilità e la specificità.

Effetto in presenza di pseudogeni

• Allineamento contro trascrittoma noto assegna tutte le read possibili ai trascritti noti evitando che allineino contro gli pseudogeni corrispondentipseudogeni corrispondenti

• Riallineamento basato su edit distance consente di rimappare read sovrapposte a siti di splicing ignoti mappate scorrettamente a pseudogeni nel passaggio 2.

Approccio seed-extent

• Nell’approccio seed-extendviene memorizzato un indice di k-mer del genoma.

• Le read vengono divise in k-mer e confrontate con l’indice del genoma.

• I k-mer mappati vengono • I k-mer mappati vengono quindi estesi e l’allineamento può includere siti di splicing.

• Software:– GSNAP

– QPALMA

• Sistemi seed-extent sono accurati ma generalmente molto più lenti di sistemi exon-first



GSNAPGenomic Short-read Nucleotide Alignment Program

Allineatore creato per identiticare varianti complesse e

siti di splicing da read NGS.

Allineamento sul reference “space”

• GSNAP utilizza una tabella di hash dei possibili 12-mer sul genoma (spaziati di 3 nt).

• SNP in un 12-mer genomico vengono rappresentate duplicando le posizioni nella lista per tutte le combinazioni di alleli duplicando le posizioni nella lista per tutte le combinazioni di alleli maggiori e minori nel 12-mer.

• Alleli maggiori vengono rappresentati in un genoma compresso mentre gli alleli minori vengono rappresentati in un altro genoma compresso.

Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics (Oxford, England),

26(7), 873–81. doi:10.1093/bioinformatics/btq057

Rilevazione di varianti ed eventi di

splicing

• GSNAP può utilizzare 2

tipi di evidenze per

identificare i siti di

splicing:




splicing




splicing:

1. Modello probabilistico 1. Modello probabilistico

di siti donatori-

accettori




splicing




splicing:

1. Modello probabilistico 1. Modello probabilistico

di siti donatori-

accettori

2. Database di estremità

esone-introne note




splicing




splicing:

1. Modello probabilistico di 1. Modello probabilistico di

siti donatori-accettori

2. Database di estremità

esone-introne note

• Eventi di splicing

possono anche essere

intercromosomali

(fusioni geniche)Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics (Oxford, England),


Controllo qualità di dati RNA-Seq

● RseQC è un pacchetto software che fornisce

dei moduli per controllare la qualità delle

sequenze RNASeq allineate

Livello di duplicazione

read_duplication.py calcola i livelli di duplicazione a livello di allineamento e a livello

di sequenza.

Read duplicate nei dati RNA-Seq

• Read duplicate non vengono normalmente

rimosse dai dati RNA-Seq:

– Duplicati di PCR non sono distinguibili da

frammenti uguali dovuti a elevati livelli di frammenti uguali dovuti a elevati livelli di

espressione

2500

3000

Distribuzione delle read

Distribuzione delle read tra le diverse feature (CDS,UTR, Introni, …)

700000

800000

900000 Read intergenicheDistribuzione tra le feature

TSS_up_10kbTSS_up_5kb

TSS_up_1kbTES_down_1kb

TES_down_5kbTES_down_10kb

0

500

1000

1500

2000

Bias possono intervenire se i rapporti CDS/UTR/Introni non vengono mantenuti

cds 5'UTR 3'UTR intron intergenic

0

100000

200000

300000

400000

500000

600000

700000

upstream downstream

Analisi del gene body coverage

Permette di rilevare bias nel coverage rispetto alla posizione nel gene body

3’ end bias

Un bias al 3’ potrebbe indicare un campione degradato.

Distanza tra paia di read

Distanza tra due paia di read tenendo in considerazione la posizione degli introni.

Saturazione degli RPKM

● RPKM_saturation.py

● Stima dell'errore come percentuale comparata all'RPKM ottenuto da tutte le read.tutte le read.

● Q1, Q2, Q3, Q4 sono i 4 quartili di espressione.

Reads Per Kilobase of gene per Million

mapped reads (RPKM)

• Valore di espressione normalizzato dividendo

le conte grezze per la lunghezza in kilobasi dei

geni e per i milioni di read totali mappate per

campione:campione:

– Geni più lunghi hanno una maggiore probabilità di

essere sequenziati

– Il numero di read ottenute può variare a seconda

della run di sequenziamento

Comparazione delle giunzioni rilevate

con l’annotazione

Total splicing Events: 160912Known Splicing Events: 155526Partial Novel Splicing Events: 3396Novel Splicing Events:1941

Total splicing Junctions: 4326Known Splicing Junctions: 3871Partial Novel Splicing Junctions: 259

splice junction: eventi di splicing multipli

riguardanti lo stesso introne.

splice event: Una read RNA-Seq,

specialmente se lunga, può venire splittata 2

o più volte; ogni volta viene contata come

splicing event

Partial Novel Splicing Junctions: 259Novel Splicing Junctions: 196

Saturazione delle giunzioni

Fornisce una misura di quanto la profondità utilizzata è stata in grado di

saturare le giunzioni di splicing note e novel � importante se si è interessati

all’analisi dello splicing alternativo.

Giunzioni note a saturazioneGiunzioni note a saturazione

Giunzioni note non sono

saturate