DDBJの新型シーケンサへの対応: データアーカイ …Roche 454:...

Post on 06-Jul-2020

3 views 0 download

transcript

中村 保一NAKAMURA Yasukazu, Professor

国立遺伝学研究所 大量遺伝情報研究室www.nig.ac.jp yanakamu@genes.nig.ac.jp

DDBJの新型シーケンサへの対応:データアーカイブDRAと解析パイプライン

ライフサイエンスDB講習会@名大 Aug 9, 2010

新型シーケンサNew Generation Sequencer; NGS

新型シーケンサの特徴

マイクロビーズや固体担体を用い、DNA増幅 (PCR) 反応を超高密度化配列の解読は、ゲルではなく固定した担体上で行い、反応に伴う微細な発光をデジタルカメラで取得、同じスポットの発光を時系列で並べることで一度に数百万以上の配列決定を同時進行従来法に比べると短めの配列決定長

by 神沼英里@遺伝研

新旧ゲノム解析技術の比較

(旧)サンガー法

Review by Shendure and Ji, 26:1135-1145, Nature Biotechnology, 2008

(新)次世代シークエンサーの共通手順

①In vitroでライブラリ構築

②アレイベースでシークエンシング(高並列化)

③アレイベースは試薬少量(低コスト化)

New Generation Sequencer (NGS)

代表的なもの左:Roche社 454 Genome Sequencer中:illumina社 Genome Analyzer右:applied biosystems社 SOLiD™

Roche 454: Pyrosequencingの原理

エマルジョンPCRという方法で高密度化微細なポリスチレンビーズにDNA分子を1分子ずつ固定、ビーズ上でPCRを行いDNAを増幅

相補鎖合成を行いながら発光をとらえる合成反応の副産物である pyrophosphate をATP sulfurylaseによってATPに変換し、luciferaseで化学発光させる

これを高精度の画像として時系列に撮影。同じ位置のスポットの発光の有無とその強度から配列情報を推測し、配列を決定する

http://www.youtube.com/watch?v=kYAGFrbGl6E

illumina: Genome Analyser の原理

454のようなビーズではなく、フラットな固層上に適当な間隔でDNAを1分子ずつ固定、基盤上で「ブリッジPCR」を行い、スポットとしてDNAを増幅

相補鎖合成を行いながら化学発光をとらえる

4つの塩基に別々の蛍光標識をつけておいて、結合した塩基の場所をスポットの光として特定し、塩基配列を解読していく

454同様に、元データは時系列の高密度な画像データ

http://www.youtube.com/watch?v=77r5p8IBwJk

applied biosystems SOLiD の原理

http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid-next-generation-sequencing/next-generation-systems/solid-sequencing-chemistry.html?CD=116437

454同様、エマルジョンPCRで高密度化

合成ではなく、相補鎖結合 (ligation) の際の発光をとらえる。2塩基ごとの計測をずらして繰り返す。

http://www.youtube.com/watch?v=nlvyF8bFDwM

NGSの特徴:「爆速」

illumina の最新型 HiSeq2000:一解析で2000億塩基 (200GB)ヒト一人が30億塩基対なので...30倍読んでも一解析で2人分完成できる

なにができるようになったか?1000人ゲノムプロジェクト:異なる民族グループから1000人分の匿名者のゲノム配列を決定することにより、ヒトの遺伝的多様性を解析する。イギリス、米国、中国が中心。

がんゲノムコンソーシアム:主要ながんのゲノム変異カタログを作成する。米国、欧州、オーストラリア、インド、中国、日本など、数多くの国々が参加。

ヒト微生物群ゲノムプロジェクト:体内の1000の微生物ゲノムを解読。米国国立衛生研究所(NIH)が主導。

ENCODEプロジェクト:遺伝子発現解析。米国NIHが主導。米国、欧州、シンガポール、日本などが参加。

パーソナルゲノムプロジェクト:米国ハーバード大学が主導。参加した個人のゲノム情報に加え、顔写真や医療情報をともにウェブ上で公開する。一万人を募集、解析する予定。......

http://www.spc.jst.go.jp/hottopics/1006genome_biofunctional_analysis/r1006_hayashizaki.html

DDBJ SequenceRead Archive

次世代シークエンサからの生出力データ のための公共アーカイブ

出力データはそのまま DRA へ

解析済の配列データは DDBJ へ

解析後の定量データは DOR へ

登録の流れと種類

登録に必要なメタデータとデータについて

http://trace.ddbj.nig.ac.jp/dra/

登録方法DRA データ登録マニュアル

登録受付システム D-way

データ公開

解析パイプライン

DRAウェブサイト

アカウント申請後に知らされる ID とパスワードで

ログインします

新規登録 (drauser-0001) のデータを作成していきます

D-way

1次データベースコールQuality etc

454 (Roche)

Solexa (Illumina)

SOLiD (ABI) etc

画像データ

配列のみのデータ@SRR001654.1 9460:7:1:830:763 length=36GTCAATATTAATCATACCAATATACTCAAAAAATAA+SRR001654.1 9460:7:1:830:763 length=36I+-&*4)%+5'#%/)&$%$#%"#&%'%"$%#%%!""@SRR001654.2 9460:7:1:402:781 length=36GGTCTAAAAAGCAAAATTCAGTCTTCAAAATAATTC+SRR001654.2 9460:7:1:402:781 length=36II+(%$+%'&+*-0+/*("%&+"*&"(*$""#%%&$@SRR001654.3 9460:7:1:433:775 length=36GTGCTTTTTTTTTTCCAGGAAGTTGTCTCCTCTATC+SRR001654.3 9460:7:1:433:775 length=36II3DI>IIIIIIIB7.,&%&'&)."+%,$"&$&"%#

fastq データ(塩基配列 + Quality

Value)

メタデータ  (データに関する情報:実験手法、解析方法 etc)

ランデータ

登録対象

“メタデータ” + “ランデータ”どんな実験?どんな研究?

どんなサンプル?

ランの結果

登録されるデータは二種類

6個のオブジェクト

アクセッション番号はそれぞれのオブジェクトに対

して発行されます

実体は XML ファイル

ランデータは Run の下に

メタデータ

<?xml version="1.0" encoding="UTF-8"?><EXPERIMENT_SET xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <EXPERIMENT alias="2010007891" expected_number_runs="8" expected_number_spots="547063" expected_number_reads="547063" accession="SRX000017"> <TITLE>454 sequencing of Roseburia faecis M72/1 genomic fragment library</TITLE> <STUDY_REF accession="SRP000011" refname="2005892953"/> <DESIGN> <DESIGN_DESCRIPTION>454 Sequencing of Roseburia faecis M72/1 Whole Genome Shotgun Library</DESIGN_DESCRIPTION> <SAMPLE_DESCRIPTOR accession="SRS000011" refname="Roseburia faecis M72/1"/> <LIBRARY_DESCRIPTOR> <LIBRARY_NAME>2010007891</LIBRARY_NAME> <LIBRARY_STRATEGY>WGS</LIBRARY_STRATEGY> <LIBRARY_SOURCE>GENOMIC</LIBRARY_SOURCE> <LIBRARY_SELECTION>RANDOM</LIBRARY_SELECTION> <LIBRARY_LAYOUT> <SINGLE/> </LIBRARY_LAYOUT> </LIBRARY_DESCRIPTOR> <SPOT_DESCRIPTOR> <SPOT_DECODE_SPEC> <NUMBER_OF_READS_PER_SPOT>2</NUMBER_OF_READS_PER_SPOT> <READ_SPEC> <READ_INDEX>0</READ_INDEX>

XMLによるメタデータの記述(汗)

Submission

Study

Experiment (24 h)Experiment (12 h)

Experiment (0h)

Sample

RunRun

24 h12 h

0 h

例) 培養細胞: 薬剤処理 0, 12, 24 h 後の転写プロファイル解析

• 登録後、オブジェクトを追加できます 

• 別の Submission で登録済みのオブジェクトを再利用できます

Run

メタデータ構成の例

登録者

ランデータ

メタデータ

ファイルを転送

ファイル受付サーバ

登録受付システム D-way登録マニュアルに従い、まずはD-way アカウントを申請してください

http://trace.ddbj.nig.ac.jp/dra/submission.shtml

二種類のデータ登録の手順が必要です

ウェブ上で作成

【あるいはHDDを送付】

オブジェクトに対応したタブ

メタデータ作成ウェブツール MetaDefine

XML を意識することなく、情報を入力していくだけでメタデータを作成できます

D-way ウェブ上で submission のメタデータを作成します

ポップアップ説明

様々な入力支援

メタデータ作成を支援: MetaDefine (1)

https://trace.ddbj.nig.ac.jp/tools/contents/metaDefine

登録データの再利用

Load Allをクリックします 再利用する

submission を選びます

その場での内容チェック

必須項目がないと警告メッセージが表示されます

内容を入力すると、メッセージが消えます

MetaDefine (2)

機種ごとに登録すべきファイルが異なります詳しくはウェブサイトへ

http://trace.ddbj.nig.ac.jp/dra/documentation.shtml

submission ごとに指定のフォルダにファイルを転送

ランデータ 受付サーバ

ランデータ

【あるいはHDDを送付】

進行状況

アクセッション番号公開予定日公開日

概要

登録状況の確認がオンラインでできます

指定された公開日になると、登録されたデータがDRA と NCBI SRA から公開されます

※公開日は1年後まで指定でき、延長し続けることもできます

DRA 公開データ (簡単な検索機能つき)

DDBJ Read Archive NCBI Sequence Read Archive

データの公開

DRA/ERA/SRA 公開データメタデータ XML + fastq

(ftp 一括公開)

SRA2007年-

ERA2008年-

DRA2008年-

国際協力体制

登録に必要なメタデータとデータについて

http://trace.ddbj.nig.ac.jp/dra/

登録方法DRA データ登録マニュアル

登録受付システム D-way

データ公開

解析パイプライン

DRAウェブサイト

DDBJ Read Archive公開数(June 28, 2010~August 2, 2010)

総数 DRA番号 SRA番号

登録数 230 195(前回172)

28

公開数 28 11 17

総数 DRA番号 SRA番号

登録数 244 206(前回195)

28

公開数 29 12 17

(August 2, 2010) (June 28, 2010)

http://trace.ddbj.nig.ac.jp/registered/

データ公開

trace@ddbj.nig.ac.jphttp://trace.ddbj.nig.ac.jp/dra/

DRA はライフサイエンス統合データベースプロジェクトの一部であり、科学技術振興機構のバイオインフォマティクス推進センター(BIRD)で支援されています

データ登録をお待ちしております

解析支援系 DDBJ Read Annotation Pipeline         

解析パイプライン https://p.ddbj.nig.ac.jp/

User ID: guest (パスワードなし)でデモ画面を参照できます。

Query用FASTQ形式READファイルの選択

DRA metadataをダウンロード、参

2. Queryにするデータを選択 3. 次へ

1.リストでsubmissionを切り替える

解析に使用するfastq fileは、Run毎作成されたものをpipelineでは使用します。

その為、queryの指定は、RUN ACCESSIONで行います。

実行Toolの選択

1.De Novo Assemblyを選択

2.Toolを選択 3.De Novo Assemblyの結果のContigsをReference Genomeにmapするためにチェック

3. 次へ

Reference Genome Mapping / De Novo Assemblyを選択

今回のデモでは、De Novo Assemblyを選択します。

1.Query Set作成用にデータをチェック

3. 次へ

Query Setsの作成

2.確認

Query Setsとは

Pipelineでは同一解析条件であれば、一度の実行で複数のQueryを解析可能です。

解析条件は同じだが、結果ファイルは、別々にしたい場合、この画面で、Query Setを分けて下さい。

例) Query Set A ----- Run Accession 1 Query Set B ------ Run Accession 3

      Run Accession 2

Query Set A と Query Set Bの解析結果ファイルは、別々に生成されます。今回のデモは、1Query Set ‒ 1Run Accession

De Novo Assembly Toolの実行オプション指定

1. 実行オプションを指定

2. 次へ

CONTIGSをmapするReference Genomeを選択

Major genome sets もしくは、Download or upload referenceを選択

1.Download or upload referenceを選択

3.次へ2.INSDCアクセッション番号を指定

今回のデモは、INSDCアクセッション番号で Reference を指定します。

CONTIGSをReference GenomeにmapするためにMapping Toolの実行オプションを指定

1. 実行オプションを指定

2. 次へ

実行内容の確認

2. 実行1. 実行内容を確認

guestユーザはRUNボタンが表示されません。

3. STATUSをクリック

実行結果(Status)の確認

1.自分の実行データのみを抽出

2.De Novo assembly結果の詳細画面へ

3.CONTIGSのmap結果の詳細画面へ

実行結果(Detail)の確認(assemblyの結果)

3.統計量をダウンロード

1.実行結果をログで確認

2.結果をダウンロード

実行結果(Detail)の確認(mappingの結果)

3.統計量をダウンロード

1.実行結果をログで確認

2.結果をダウンロード

Archives の苦悩

データは、増えることはあっても減ることはない。右肩上がりしかもその増え方は新型シーケンサ=NGSの出現でエラい勢いで加速している生物学者もまともなQCをしている暇がない、あるいはQCができる能力のない生物学者でも配列決定ができるようになった

Archives の苦悩 - ストレイジの確保

NCBI - GenBankテープによる二アラインストレイジ。1TBあたり100ドル程度。全容量不明。エクサバイト級?

EBI - ENA / EMBL-Bank新型シーケンサのデータアーカイブ用に1ペタバイト。来年以降、毎年4ペタバイト追加。

DDBJ遺伝研全体で3ペタバイト程度。2年後のリプレイスでは最低10ペタバイト。できれば数十ペタ

このプレゼンテーションは児玉悠一さん、望月孝子さん、神沼英里さんの作品に若干の手を加えて作成しております。ありがとうございました。

謝辞

Cc, the first-ever cloned cat.

ご清聴ありがとうございました