+ All Categories
Home > Technology > 20110602labseminar pub

20110602labseminar pub

Date post: 06-Jul-2015
Category:
Upload: yag-ays
View: 2,025 times
Download: 1 times
Share this document with a friend
Description:
TrinityとNewbler2.5を用いて454データに対するde novo transcriptome assembleをしたときの精度比較@瀬々ラボセミナー
Popular Tags:
34
仕事内容の紹介 RNA-Seqの概要 アセンブラの精度比較 奥田 裕樹 (yag_ays) のために を説明した上で について報告します http://yag-ays.jp/pdf/20110602labseminar_pub.pdf
Transcript
Page 1: 20110602labseminar pub

仕事内容の紹介RNA-Seqの概要アセンブラの精度比較

奥田 裕樹 (yag_ays)

のために

を説明した上で

について報告します

http://yag-ays.jp/pdf/20110602labseminar_pub.pdf

Page 2: 20110602labseminar pub

追記:登場人物生物 cens

ored

usagi:既に全ゲノム配列が読まれている    モデル生物でアノテーションも豊富

usamimi:ゲノム配列が読まれていない生物     うさぎの近縁種     かわいい「「

Page 3: 20110602labseminar pub

NGS(Next Generation Sequencing)

RNA-Seq(Transcriptome Analysis)

de novo Transcriptome Assembly

Page 4: 20110602labseminar pub

Central DogmaA T G C

DNA

mRNA

Protein

Page 5: 20110602labseminar pub

A T G C

細胞の個性

Central DogmaDNA

mRNA

Protein

Page 6: 20110602labseminar pub

A T G C

細胞の個性?Transcriptome

Central DogmaDNA

mRNA

Protein

Page 7: 20110602labseminar pub

A T G C

NGSを用いたRNA-Seq

TTAGCCTTAGCTTCCGTCGCAACTTCCTTATTCACGAGCTTGATGTTGCGGATCACTTTG

断片化

• illumina / Solexa GA• ABI / SOLiD• Roche / 454• PacBio• Helicos / Heliscope• ion torrent etc...

NGSの機種

読み取り

mRNA

Page 8: 20110602labseminar pub

A T G C

NGSを用いたRNA-Seq

TTAGCCTTAGCTTCCGTCGCAACTTCCTTATTCACGAGCTTGATGTTGCGGATCACTTTG

断片化

• illumina / Solexa GA• ABI / SOLiD• Roche / 454• PacBio• Helicos / Heliscope• ion torrent etc...

NGSの機種

読み取り

mRNA

• 転写物の絶対定量• 原理的には「配列」と「本数」を測定

• 低発現量の転写物も検出できる

NGSの特徴

Page 9: 20110602labseminar pub

ʻalign-then-assembleʼapproach

ʻassemble-then-alignʼapproach

RNA-Seqの二つの戦略

Page 10: 20110602labseminar pub

ʻalign-then-assembleʼapproach

ʻassemble-then-aliignʼapproach

RNA-Seqの二つの戦略

• よく研究されているモデル生物では主流

• 低発現の転写物を 検出しやすい

• 参照配列に依存

Page 11: 20110602labseminar pub

ʻalign-then-assembleʼapproach

ʻassemble-then-alignʼapproach

RNA-Seqの二つの戦略

• 454初期から利用されてきた方法

• 参照配列に依存しない• アセンブルが難しい

単純なアセンブルの方法

Page 12: 20110602labseminar pub

ʻalign-then-assembleʼapproach

ʻassemble-then-alignʼapproach

RNA-Seqの二つの戦略

Page 13: 20110602labseminar pub

ʻalign-then-assembleʼapproach

ʻassemble-then-alignʼapproach

RNA-Seqの二つの戦略

リファレンスとなる

ゲノム配列が無い場合

Page 14: 20110602labseminar pub

ʻalign-then-assembleʼapproach

ʻassemble-then-alignʼapproach

RNA-Seqの二つの戦略

リファレンスとなる

ゲノム配列が無い場合

Page 15: 20110602labseminar pub

ʻalign-then-assembleʼapproach

ʻassemble-then-alignʼapproach

RNA-Seqの二つの戦略

リファレンスとなる

ゲノム配列が無い場合

• 近縁種のゲノム配列を参照配列とする

• cDNAライブラリーを用いる

Page 16: 20110602labseminar pub

ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択

Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において

Newbler 2.5が最も良いパフォーマンスを示した

Page 17: 20110602labseminar pub

ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択

Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において

Newbler 2.5が最も良いパフォーマンスを示した

幾つか検討してみることに...

Page 18: 20110602labseminar pub

ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択

Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において

Newbler 2.5が最も良いパフォーマンスを示した

幾つか検討してみることに...

Trinity...!!

Page 19: 20110602labseminar pub

アセンブラの設計が違う1.Newbler 2.5

• Roche 454謹製のアセンブラ

• 454特有の長い配列に対応した設計

• 様々な論文で使用されてきた実績がある

2.Trinity• Broad Instituteが開発した,参照配列を必要としないトランスクリプトームアセンブラ

• 454配列データへの適用例は今のところ無い (ハズ)

• Nat Biotechnol. 2011 Mayに論文 ** Grabherr MG, Haas BJ, Yassour M et al. : Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nat Biotechnol. 2011 May 15

Page 20: 20110602labseminar pub

1.Newbler 2.5 • Overlap-Layout-Consensus (OLC)

2.TrinityI. Inchworm : k-mer graphII. Chrysalis : Contig poolIII.Butterfly : De Bruijn Graph

アセンブラのアルゴリズムも違う

タイプの異なる2つのアセンブラで解析を行って精度を比較した

Page 21: 20110602labseminar pub

Roche 454 pyrosequencingにおけるusamimiのデータ

Newbler 2.5 Trinity

GMAPwith usagi CDS

今回の実験内容 (sff or fastq format)

遺伝子配列と注釈(gff format)

遺伝子配列(fasta format)

遺伝子配列(fasta format)

遺伝子配列と注釈(gff format)

:約0.3M reads

Page 22: 20110602labseminar pub

• 全コンティグ長の累計塩基数が最も長い

• 近縁種が持つ配列を最もカバーする

理想のアセンブラは

結果を出すと仮定して,コンティグの数や塩基数の分布,近縁種にマッピングした結果を比較する

(コンティグの数に応じて)

アセンブラの比較方法はS. Kumar et al.(2010)から実行可能なものを選択

Page 23: 20110602labseminar pub

Newbler 2.5 Trinity

Number of contigs

19,753 20,758

Total Bases 9,651,390 10,275,166

Max contig length

2,878 2,151

Mean contig length

488.6 495

N50 581 616

Newbler 2.5とTrinityで同様の結果が得られた

得られたコンティグを長い順に並べた模式図

Page 24: 20110602labseminar pub

Newbler 2.5

Trinity

N = 19,753

N = 20,758

得られたコンティグ長の分布は同様の傾向を示した

http://edwards.sdsu.edu/prinseq_beta/

Page 25: 20110602labseminar pub

0

4000

8000

12000

16000

Newbler 2.5 Trinity

all ≧ 80% alignment≧ 90% alignment≧ 95% alignment100% alignmentNewbler 2.5 Trinity

all

≧ 80%

≧ 90%

≧ 95%

100%

15,498 15,524

14,583 14,697

8,466 8,665

1,059 1,191

66 30

得られたコンティグをusagiのCDSにマッピングして注釈を付与した結果,

同様の遺伝子数および一致度の分布を示した

usagi CDS :30,000くらい

Page 26: 20110602labseminar pub

2,990 9,427 1,006

TrinityNewbler 2.5

10,433genes

12,417genes

得られたコンティグに対応付けられたusagiの注釈数は,ほぼ同様の値を示した

Page 27: 20110602labseminar pub

S. Kumar et al.(2010) において

Poly(A/T)配列によるミスアセンブルは起こらない

Poly(A/T)配列を除去した場合としなかった場合を比較

アセンブルした配列にPoly(A/T)配列が再現されていれば配列の末端が正しくアセンブルされていると判断できる

より生物学的な側面から...

Page 28: 20110602labseminar pub

Poly(A/T)配列の再現率では Trinity > Newbler 2.5

3,773 (18.18%)

2,349(11.32%)

257 (1.30%)

539(2.73%)

Newbler 2.5 Trinity

Poly T

Poly A

20 bp 20 bp

20 bp 20 bp

( )内は全コンティグ数に占める割合http://edwards.sdsu.edu/prinseq_beta/

Page 29: 20110602labseminar pub

Poly(A/T)配列の再現率では Trinity > Newbler 2.5

3,773 (18.18%)

2,349(11.32%)

257 (1.30%)

539(2.73%)

Newbler 2.5 Trinity

Poly T

Poly A

20 bp 20 bp

20 bp 20 bp

( )内は全コンティグ数に占める割合

Poly(A/T)の性質上Quality Valueが低い→NewblerのQualityによるtrimmingによるもの...?

http://edwards.sdsu.edu/prinseq_beta/

Page 30: 20110602labseminar pub

TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した

得られたコンティグの量や分布usagi CDSとの対応

:差がない1.

2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った

ほぼ

Page 31: 20110602labseminar pub

TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した

得られたコンティグの量や分布usagi CDSとの対応

:差がない1.

2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った

・Trinityの精度が実証・454にも対応できる

ほぼ

Page 32: 20110602labseminar pub

TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した

得られたコンティグの量や分布usagi CDSとの対応

:差がない1.

2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った

個別に配列を見るなどもう少し詳しく検討

・Trinityの精度が実証・454にも対応できる

ほぼ

Page 33: 20110602labseminar pub
Page 34: 20110602labseminar pub

Method : Parameters

• Newbler 2.5

• -notrim

• -urt

• Trinity (20110519 ver.)

• --seqType=fq

• --single

• --min_contig_length 50

• --run_butterfly

• --CPU 4

• --bfly_opts "--compatible_path_extension --stderr "


Recommended