Date post: | 06-Jul-2015 |
Category: |
Technology |
Upload: | yag-ays |
View: | 2,025 times |
Download: | 1 times |
仕事内容の紹介RNA-Seqの概要アセンブラの精度比較
奥田 裕樹 (yag_ays)
のために
を説明した上で
について報告します
http://yag-ays.jp/pdf/20110602labseminar_pub.pdf
追記:登場人物生物 cens
ored
usagi:既に全ゲノム配列が読まれている モデル生物でアノテーションも豊富
usamimi:ゲノム配列が読まれていない生物 うさぎの近縁種 かわいい「「
NGS(Next Generation Sequencing)
RNA-Seq(Transcriptome Analysis)
de novo Transcriptome Assembly
Central DogmaA T G C
DNA
mRNA
Protein
A T G C
細胞の個性
Central DogmaDNA
mRNA
Protein
A T G C
細胞の個性?Transcriptome
Central DogmaDNA
mRNA
Protein
A T G C
NGSを用いたRNA-Seq
TTAGCCTTAGCTTCCGTCGCAACTTCCTTATTCACGAGCTTGATGTTGCGGATCACTTTG
断片化
• illumina / Solexa GA• ABI / SOLiD• Roche / 454• PacBio• Helicos / Heliscope• ion torrent etc...
NGSの機種
読み取り
mRNA
A T G C
NGSを用いたRNA-Seq
TTAGCCTTAGCTTCCGTCGCAACTTCCTTATTCACGAGCTTGATGTTGCGGATCACTTTG
断片化
• illumina / Solexa GA• ABI / SOLiD• Roche / 454• PacBio• Helicos / Heliscope• ion torrent etc...
NGSの機種
読み取り
mRNA
• 転写物の絶対定量• 原理的には「配列」と「本数」を測定
• 低発現量の転写物も検出できる
NGSの特徴
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
ʻalign-then-assembleʼapproach
ʻassemble-then-aliignʼapproach
RNA-Seqの二つの戦略
• よく研究されているモデル生物では主流
• 低発現の転写物を 検出しやすい
• 参照配列に依存
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
• 454初期から利用されてきた方法
• 参照配列に依存しない• アセンブルが難しい
単純なアセンブルの方法
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
リファレンスとなる
ゲノム配列が無い場合
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
リファレンスとなる
ゲノム配列が無い場合
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
リファレンスとなる
ゲノム配列が無い場合
• 近縁種のゲノム配列を参照配列とする
• cDNAライブラリーを用いる
ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択
Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において
Newbler 2.5が最も良いパフォーマンスを示した
ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択
Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において
Newbler 2.5が最も良いパフォーマンスを示した
幾つか検討してみることに...
ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択
Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において
Newbler 2.5が最も良いパフォーマンスを示した
幾つか検討してみることに...
Trinity...!!
アセンブラの設計が違う1.Newbler 2.5
• Roche 454謹製のアセンブラ
• 454特有の長い配列に対応した設計
• 様々な論文で使用されてきた実績がある
2.Trinity• Broad Instituteが開発した,参照配列を必要としないトランスクリプトームアセンブラ
• 454配列データへの適用例は今のところ無い (ハズ)
• Nat Biotechnol. 2011 Mayに論文 ** Grabherr MG, Haas BJ, Yassour M et al. : Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nat Biotechnol. 2011 May 15
1.Newbler 2.5 • Overlap-Layout-Consensus (OLC)
2.TrinityI. Inchworm : k-mer graphII. Chrysalis : Contig poolIII.Butterfly : De Bruijn Graph
アセンブラのアルゴリズムも違う
タイプの異なる2つのアセンブラで解析を行って精度を比較した
Roche 454 pyrosequencingにおけるusamimiのデータ
Newbler 2.5 Trinity
GMAPwith usagi CDS
今回の実験内容 (sff or fastq format)
遺伝子配列と注釈(gff format)
遺伝子配列(fasta format)
遺伝子配列(fasta format)
遺伝子配列と注釈(gff format)
:約0.3M reads
• 全コンティグ長の累計塩基数が最も長い
• 近縁種が持つ配列を最もカバーする
理想のアセンブラは
結果を出すと仮定して,コンティグの数や塩基数の分布,近縁種にマッピングした結果を比較する
(コンティグの数に応じて)
アセンブラの比較方法はS. Kumar et al.(2010)から実行可能なものを選択
Newbler 2.5 Trinity
Number of contigs
19,753 20,758
Total Bases 9,651,390 10,275,166
Max contig length
2,878 2,151
Mean contig length
488.6 495
N50 581 616
Newbler 2.5とTrinityで同様の結果が得られた
得られたコンティグを長い順に並べた模式図
Newbler 2.5
Trinity
N = 19,753
N = 20,758
得られたコンティグ長の分布は同様の傾向を示した
http://edwards.sdsu.edu/prinseq_beta/
0
4000
8000
12000
16000
Newbler 2.5 Trinity
all ≧ 80% alignment≧ 90% alignment≧ 95% alignment100% alignmentNewbler 2.5 Trinity
all
≧ 80%
≧ 90%
≧ 95%
100%
15,498 15,524
14,583 14,697
8,466 8,665
1,059 1,191
66 30
得られたコンティグをusagiのCDSにマッピングして注釈を付与した結果,
同様の遺伝子数および一致度の分布を示した
usagi CDS :30,000くらい
2,990 9,427 1,006
TrinityNewbler 2.5
10,433genes
12,417genes
得られたコンティグに対応付けられたusagiの注釈数は,ほぼ同様の値を示した
S. Kumar et al.(2010) において
Poly(A/T)配列によるミスアセンブルは起こらない
Poly(A/T)配列を除去した場合としなかった場合を比較
アセンブルした配列にPoly(A/T)配列が再現されていれば配列の末端が正しくアセンブルされていると判断できる
+
より生物学的な側面から...
Poly(A/T)配列の再現率では Trinity > Newbler 2.5
3,773 (18.18%)
2,349(11.32%)
257 (1.30%)
539(2.73%)
Newbler 2.5 Trinity
Poly T
Poly A
20 bp 20 bp
20 bp 20 bp
( )内は全コンティグ数に占める割合http://edwards.sdsu.edu/prinseq_beta/
Poly(A/T)配列の再現率では Trinity > Newbler 2.5
3,773 (18.18%)
2,349(11.32%)
257 (1.30%)
539(2.73%)
Newbler 2.5 Trinity
Poly T
Poly A
20 bp 20 bp
20 bp 20 bp
( )内は全コンティグ数に占める割合
Poly(A/T)の性質上Quality Valueが低い→NewblerのQualityによるtrimmingによるもの...?
http://edwards.sdsu.edu/prinseq_beta/
TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した
得られたコンティグの量や分布usagi CDSとの対応
:差がない1.
2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った
ほぼ
TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した
得られたコンティグの量や分布usagi CDSとの対応
:差がない1.
2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った
・Trinityの精度が実証・454にも対応できる
ほぼ
TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した
得られたコンティグの量や分布usagi CDSとの対応
:差がない1.
2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った
個別に配列を見るなどもう少し詳しく検討
・Trinityの精度が実証・454にも対応できる
ほぼ
Method : Parameters
• Newbler 2.5
• -notrim
• -urt
• Trinity (20110519 ver.)
• --seqType=fq
• --single
• --min_contig_length 50
• --run_butterfly
• --CPU 4
• --bfly_opts "--compatible_path_extension --stderr "