+ All Categories
Home > Documents > DDBJの新型シーケンサへの対応: データアーカイ …Roche 454:...

DDBJの新型シーケンサへの対応: データアーカイ …Roche 454:...

Date post: 06-Jul-2020
Category:
Upload: others
View: 3 times
Download: 0 times
Share this document with a friend
43
中村 保一 NAKAMURA Yasukazu, Professor 国立遺伝学研究所 大量遺伝情報研究室 [email protected] DDBJの新型シーケンサへの対応: データアーカイブDRAと解析パイプライン ライフサイエンスDB講習会@名大 Aug 9, 2010
Transcript
Page 1: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

中村 保一NAKAMURA Yasukazu, Professor

国立遺伝学研究所 大量遺伝情報研究室www.nig.ac.jp [email protected]

DDBJの新型シーケンサへの対応:データアーカイブDRAと解析パイプライン

ライフサイエンスDB講習会@名大 Aug 9, 2010

Page 2: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

新型シーケンサNew Generation Sequencer; NGS

Page 3: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

新型シーケンサの特徴

マイクロビーズや固体担体を用い、DNA増幅 (PCR) 反応を超高密度化配列の解読は、ゲルではなく固定した担体上で行い、反応に伴う微細な発光をデジタルカメラで取得、同じスポットの発光を時系列で並べることで一度に数百万以上の配列決定を同時進行従来法に比べると短めの配列決定長

Page 4: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

by 神沼英里@遺伝研

新旧ゲノム解析技術の比較

(旧)サンガー法

Review by Shendure and Ji, 26:1135-1145, Nature Biotechnology, 2008

(新)次世代シークエンサーの共通手順

①In vitroでライブラリ構築

②アレイベースでシークエンシング(高並列化)

③アレイベースは試薬少量(低コスト化)

Page 5: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

New Generation Sequencer (NGS)

代表的なもの左:Roche社 454 Genome Sequencer中:illumina社 Genome Analyzer右:applied biosystems社 SOLiD™

Page 6: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

Roche 454: Pyrosequencingの原理

エマルジョンPCRという方法で高密度化微細なポリスチレンビーズにDNA分子を1分子ずつ固定、ビーズ上でPCRを行いDNAを増幅

相補鎖合成を行いながら発光をとらえる合成反応の副産物である pyrophosphate をATP sulfurylaseによってATPに変換し、luciferaseで化学発光させる

これを高精度の画像として時系列に撮影。同じ位置のスポットの発光の有無とその強度から配列情報を推測し、配列を決定する

http://www.youtube.com/watch?v=kYAGFrbGl6E

Page 7: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

illumina: Genome Analyser の原理

454のようなビーズではなく、フラットな固層上に適当な間隔でDNAを1分子ずつ固定、基盤上で「ブリッジPCR」を行い、スポットとしてDNAを増幅

相補鎖合成を行いながら化学発光をとらえる

4つの塩基に別々の蛍光標識をつけておいて、結合した塩基の場所をスポットの光として特定し、塩基配列を解読していく

454同様に、元データは時系列の高密度な画像データ

http://www.youtube.com/watch?v=77r5p8IBwJk

Page 8: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

applied biosystems SOLiD の原理

http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid-next-generation-sequencing/next-generation-systems/solid-sequencing-chemistry.html?CD=116437

454同様、エマルジョンPCRで高密度化

合成ではなく、相補鎖結合 (ligation) の際の発光をとらえる。2塩基ごとの計測をずらして繰り返す。

http://www.youtube.com/watch?v=nlvyF8bFDwM

Page 9: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

NGSの特徴:「爆速」

illumina の最新型 HiSeq2000:一解析で2000億塩基 (200GB)ヒト一人が30億塩基対なので...30倍読んでも一解析で2人分完成できる

Page 10: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

なにができるようになったか?1000人ゲノムプロジェクト:異なる民族グループから1000人分の匿名者のゲノム配列を決定することにより、ヒトの遺伝的多様性を解析する。イギリス、米国、中国が中心。

がんゲノムコンソーシアム:主要ながんのゲノム変異カタログを作成する。米国、欧州、オーストラリア、インド、中国、日本など、数多くの国々が参加。

ヒト微生物群ゲノムプロジェクト:体内の1000の微生物ゲノムを解読。米国国立衛生研究所(NIH)が主導。

ENCODEプロジェクト:遺伝子発現解析。米国NIHが主導。米国、欧州、シンガポール、日本などが参加。

パーソナルゲノムプロジェクト:米国ハーバード大学が主導。参加した個人のゲノム情報に加え、顔写真や医療情報をともにウェブ上で公開する。一万人を募集、解析する予定。......

http://www.spc.jst.go.jp/hottopics/1006genome_biofunctional_analysis/r1006_hayashizaki.html

Page 11: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

DDBJ SequenceRead Archive

次世代シークエンサからの生出力データ のための公共アーカイブ

Page 12: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

出力データはそのまま DRA へ

解析済の配列データは DDBJ へ

解析後の定量データは DOR へ

登録の流れと種類

Page 13: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

登録に必要なメタデータとデータについて

http://trace.ddbj.nig.ac.jp/dra/

登録方法DRA データ登録マニュアル

登録受付システム D-way

データ公開

解析パイプライン

DRAウェブサイト

Page 14: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

アカウント申請後に知らされる ID とパスワードで

ログインします

新規登録 (drauser-0001) のデータを作成していきます

D-way

Page 15: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

1次データベースコールQuality etc

454 (Roche)

Solexa (Illumina)

SOLiD (ABI) etc

画像データ

配列のみのデータ@SRR001654.1 9460:7:1:830:763 length=36GTCAATATTAATCATACCAATATACTCAAAAAATAA+SRR001654.1 9460:7:1:830:763 length=36I+-&*4)%+5'#%/)&$%$#%"#&%'%"$%#%%!""@SRR001654.2 9460:7:1:402:781 length=36GGTCTAAAAAGCAAAATTCAGTCTTCAAAATAATTC+SRR001654.2 9460:7:1:402:781 length=36II+(%$+%'&+*-0+/*("%&+"*&"(*$""#%%&[email protected] 9460:7:1:433:775 length=36GTGCTTTTTTTTTTCCAGGAAGTTGTCTCCTCTATC+SRR001654.3 9460:7:1:433:775 length=36II3DI>IIIIIIIB7.,&%&'&)."+%,$"&$&"%#

fastq データ(塩基配列 + Quality

Value)

メタデータ  (データに関する情報:実験手法、解析方法 etc)

ランデータ

登録対象

Page 16: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

“メタデータ” + “ランデータ”どんな実験?どんな研究?

どんなサンプル?

ランの結果

登録されるデータは二種類

Page 17: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

6個のオブジェクト

アクセッション番号はそれぞれのオブジェクトに対

して発行されます

実体は XML ファイル

ランデータは Run の下に

メタデータ

Page 18: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

<?xml version="1.0" encoding="UTF-8"?><EXPERIMENT_SET xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <EXPERIMENT alias="2010007891" expected_number_runs="8" expected_number_spots="547063" expected_number_reads="547063" accession="SRX000017"> <TITLE>454 sequencing of Roseburia faecis M72/1 genomic fragment library</TITLE> <STUDY_REF accession="SRP000011" refname="2005892953"/> <DESIGN> <DESIGN_DESCRIPTION>454 Sequencing of Roseburia faecis M72/1 Whole Genome Shotgun Library</DESIGN_DESCRIPTION> <SAMPLE_DESCRIPTOR accession="SRS000011" refname="Roseburia faecis M72/1"/> <LIBRARY_DESCRIPTOR> <LIBRARY_NAME>2010007891</LIBRARY_NAME> <LIBRARY_STRATEGY>WGS</LIBRARY_STRATEGY> <LIBRARY_SOURCE>GENOMIC</LIBRARY_SOURCE> <LIBRARY_SELECTION>RANDOM</LIBRARY_SELECTION> <LIBRARY_LAYOUT> <SINGLE/> </LIBRARY_LAYOUT> </LIBRARY_DESCRIPTOR> <SPOT_DESCRIPTOR> <SPOT_DECODE_SPEC> <NUMBER_OF_READS_PER_SPOT>2</NUMBER_OF_READS_PER_SPOT> <READ_SPEC> <READ_INDEX>0</READ_INDEX>

XMLによるメタデータの記述(汗)

Page 19: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

Submission

Study

Experiment (24 h)Experiment (12 h)

Experiment (0h)

Sample

RunRun

24 h12 h

0 h

例) 培養細胞: 薬剤処理 0, 12, 24 h 後の転写プロファイル解析

• 登録後、オブジェクトを追加できます 

• 別の Submission で登録済みのオブジェクトを再利用できます

Run

メタデータ構成の例

Page 20: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

登録者

ランデータ

メタデータ

ファイルを転送

ファイル受付サーバ

登録受付システム D-way登録マニュアルに従い、まずはD-way アカウントを申請してください

http://trace.ddbj.nig.ac.jp/dra/submission.shtml

二種類のデータ登録の手順が必要です

ウェブ上で作成

【あるいはHDDを送付】

Page 21: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

オブジェクトに対応したタブ

メタデータ作成ウェブツール MetaDefine

XML を意識することなく、情報を入力していくだけでメタデータを作成できます

D-way ウェブ上で submission のメタデータを作成します

ポップアップ説明

様々な入力支援

メタデータ作成を支援: MetaDefine (1)

https://trace.ddbj.nig.ac.jp/tools/contents/metaDefine

Page 22: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

登録データの再利用

Load Allをクリックします 再利用する

submission を選びます

その場での内容チェック

必須項目がないと警告メッセージが表示されます

内容を入力すると、メッセージが消えます

MetaDefine (2)

Page 23: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

機種ごとに登録すべきファイルが異なります詳しくはウェブサイトへ

http://trace.ddbj.nig.ac.jp/dra/documentation.shtml

submission ごとに指定のフォルダにファイルを転送

ランデータ 受付サーバ

ランデータ

【あるいはHDDを送付】

Page 24: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

進行状況

アクセッション番号公開予定日公開日

概要

登録状況の確認がオンラインでできます

Page 25: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

指定された公開日になると、登録されたデータがDRA と NCBI SRA から公開されます

※公開日は1年後まで指定でき、延長し続けることもできます

DRA 公開データ (簡単な検索機能つき)

DDBJ Read Archive NCBI Sequence Read Archive

データの公開

DRA/ERA/SRA 公開データメタデータ XML + fastq

(ftp 一括公開)

Page 26: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

SRA2007年-

ERA2008年-

DRA2008年-

国際協力体制

Page 27: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

登録に必要なメタデータとデータについて

http://trace.ddbj.nig.ac.jp/dra/

登録方法DRA データ登録マニュアル

登録受付システム D-way

データ公開

解析パイプライン

DRAウェブサイト

Page 28: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

DDBJ Read Archive公開数(June 28, 2010~August 2, 2010)

総数 DRA番号 SRA番号

登録数 230 195(前回172)

28

公開数 28 11 17

総数 DRA番号 SRA番号

登録数 244 206(前回195)

28

公開数 29 12 17

(August 2, 2010) (June 28, 2010)

http://trace.ddbj.nig.ac.jp/registered/

データ公開

Page 29: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

[email protected]://trace.ddbj.nig.ac.jp/dra/

DRA はライフサイエンス統合データベースプロジェクトの一部であり、科学技術振興機構のバイオインフォマティクス推進センター(BIRD)で支援されています

データ登録をお待ちしております

Page 30: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

解析支援系 DDBJ Read Annotation Pipeline         

解析パイプライン https://p.ddbj.nig.ac.jp/

User ID: guest (パスワードなし)でデモ画面を参照できます。

Page 31: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

Query用FASTQ形式READファイルの選択

DRA metadataをダウンロード、参

2. Queryにするデータを選択 3. 次へ

1.リストでsubmissionを切り替える

解析に使用するfastq fileは、Run毎作成されたものをpipelineでは使用します。

その為、queryの指定は、RUN ACCESSIONで行います。

Page 32: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

実行Toolの選択

1.De Novo Assemblyを選択

2.Toolを選択 3.De Novo Assemblyの結果のContigsをReference Genomeにmapするためにチェック

3. 次へ

Reference Genome Mapping / De Novo Assemblyを選択

今回のデモでは、De Novo Assemblyを選択します。

Page 33: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

1.Query Set作成用にデータをチェック

3. 次へ

Query Setsの作成

2.確認

Query Setsとは

Pipelineでは同一解析条件であれば、一度の実行で複数のQueryを解析可能です。

解析条件は同じだが、結果ファイルは、別々にしたい場合、この画面で、Query Setを分けて下さい。

例) Query Set A ----- Run Accession 1 Query Set B ------ Run Accession 3

      Run Accession 2

Query Set A と Query Set Bの解析結果ファイルは、別々に生成されます。今回のデモは、1Query Set ‒ 1Run Accession

Page 34: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

De Novo Assembly Toolの実行オプション指定

1. 実行オプションを指定

2. 次へ

Page 35: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

CONTIGSをmapするReference Genomeを選択

Major genome sets もしくは、Download or upload referenceを選択

1.Download or upload referenceを選択

3.次へ2.INSDCアクセッション番号を指定

今回のデモは、INSDCアクセッション番号で Reference を指定します。

Page 36: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

CONTIGSをReference GenomeにmapするためにMapping Toolの実行オプションを指定

1. 実行オプションを指定

2. 次へ

Page 37: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

実行内容の確認

2. 実行1. 実行内容を確認

guestユーザはRUNボタンが表示されません。

3. STATUSをクリック

Page 38: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

実行結果(Status)の確認

1.自分の実行データのみを抽出

2.De Novo assembly結果の詳細画面へ

3.CONTIGSのmap結果の詳細画面へ

Page 39: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

実行結果(Detail)の確認(assemblyの結果)

3.統計量をダウンロード

1.実行結果をログで確認

2.結果をダウンロード

Page 40: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

実行結果(Detail)の確認(mappingの結果)

3.統計量をダウンロード

1.実行結果をログで確認

2.結果をダウンロード

Page 41: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

Archives の苦悩

データは、増えることはあっても減ることはない。右肩上がりしかもその増え方は新型シーケンサ=NGSの出現でエラい勢いで加速している生物学者もまともなQCをしている暇がない、あるいはQCができる能力のない生物学者でも配列決定ができるようになった

Page 42: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

Archives の苦悩 - ストレイジの確保

NCBI - GenBankテープによる二アラインストレイジ。1TBあたり100ドル程度。全容量不明。エクサバイト級?

EBI - ENA / EMBL-Bank新型シーケンサのデータアーカイブ用に1ペタバイト。来年以降、毎年4ペタバイト追加。

DDBJ遺伝研全体で3ペタバイト程度。2年後のリプレイスでは最低10ペタバイト。できれば数十ペタ

Page 43: DDBJの新型シーケンサへの対応: データアーカイ …Roche 454: Pyrosequencingの原理 エマルジョンPCRという方法で高密度化 微細なポリスチレンビーズにDNA分子を1分子ず

このプレゼンテーションは児玉悠一さん、望月孝子さん、神沼英里さんの作品に若干の手を加えて作成しております。ありがとうございました。

謝辞

Cc, the first-ever cloned cat.

ご清聴ありがとうございました


Recommended