© 2012 Illumina, Inc. All rights reserved.
Illumina, illuminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium,
iSelect, MiSeq, Nextera, Sentrix, SeqMonitor, Solexa, TruSeq, VeraCode, the pumpkin orange color, and the Genetic Energy streaming bases design are trademarks or registered trademarks of
Illumina, Inc. All other brands and names contained herein are the property of their respective owners.
塩基に偏りがある配列を
MiSeqでシーケンスするには 酒井 名朋子
Sr Technical Applications Scientist
イルミナ株式会社
2
Overview
塩基に偏りがある配列とは?
Base Callのためのパラメタ―計算
– Template Generation
– Matrix
– Phasing と Prephasing
– Pass Filter
– Quality Scoreの計算
塩基に偏りがある場合のRunQualityの改善策
3
Whole Genomeサンプルの塩基は多様です
Whole Genomeサンプル シーケンス中の各Libraryは様々な配列を持つ。
– Libraryは“バランスが取れている”
– Libraryは“多様である”
Covarisなどによる物理的断片化
(ランダム)
5’ Adapter 3’ Adapter
gDNA
最終Library
4
塩基に偏りがあるサンプルとは?
PCR Amplicon シーケンス中の各配列は、同一の配列を持つ。
– 異なる配列はターゲット箇所のみ
– 多様性の低いサンプル
5’ Adapter 3’ Adapter
配列の中に相同性があるものは塩基に偏りがある(=Low diversity)と解釈
ほかのLow Diversityサンプルの例: 16s, ChIP-Seq, Methyl-Seq
5
このサンプルはLow Diversity?
% Base
6
SAVではこんな結果になります
– Intensity がぎざぎざ
– PFが低い
– Phasing/pre-phasing が高い
– >Q30%が低い
なぜか?
– Base Callを行うアルゴリズムは、多様な塩基を想定して走るため
Low Diversityサンプルを流すとどんな結果になるか?
7
Sequence中に行うBase Callのアルゴリズム
(RTA:Real Time Analysis)
8
RTAによるBase Call
Template Generation—クラスターの位置決め(番地決め)
9
Template Generation
CGAT
CYCLE 1 CYCLE 2
最初の4サイクルまでにFC上で取得された画像を使用
CYCLE 3 CYCLE 4
10
Template Generation
CGAT
CYCLE 1 CYCLE 2 CYCLE 3 CYCLE 4
この位置情報はR1、R2を通して使用される.
塩基がCallされる際、この位置情報を基にどのクラスターからのIntensityか識別する。
RTAはこれらの4サイクル分の画像を解析し、クラスターの位置を決める。
隣り合うクラスターも特定のサイクルで異なるintenshityを持つ場合は識別可能。
TEMPLATE(クラスターの位置):
11
RTAによるBase Call
Template Generation—クラスターの位置決め(番地決め)
Matrix の計算—このシグナルはどの塩基からのシグナルか?
12
Matrix の計算: 蛍光の映り込み(クロストーク)
クロストークとは
– Green LEDを照射すると、GとTの蛍光が発光する。
– Tからシグナルを取っている際、Gからものシグナルも一部カウントされる
– このクロストーク(ほかのチャンネルからの映り込み)を把握する必要がある。
T G
T
cluster 1
G
cluster 2からのシグナルを
除外したい
13
Matrix の計算: 蛍光の補正(Corrected Intensities)
蛍光色素にはそもそも蛍光の強弱がある
例)Gは多くの場合Intensityがもっとも低い
このままではGのCall頻度が低くなる
Intensityを平均化し、Corrected
Intensitiesを算出する
14
Matrix の計算: 蛍光の映り込みと蛍光の補正
Matrix を計算することでそれぞれの塩基を正確に特定可能
T
cluster 1
G
cluster 2
を除外
Tで画像を取得している際,
Gからの映り込みを無視する
Gで画像を取得している際,
TとGのシグナルを平均化する
T
cluster 1
を除外
G
cluster 2
15
RTAによるBase Call
Template Generation—クラスターの位置決め(番地決め)
Matrix の計算—このシグナルはどの塩基からのシグナルか?
Phasing の補正—SBS反応のモニター
16
Phasing/prephasingの計算
Prephasing
A A
Phasing
G C C C C C
目安:phasing <0.4% prephasing <0.5%
17
RTAによるBase Call
Template Generation—クラスターの位置決め(番地決め)
Matrix の計算—このシグナルはどの塩基からのシグナルか?
Phasing の補正—SBS反応のモニター
Quality Filtering (PF)—このクラスターからのシグナルは不純がないか?
18
Quality Filtering (PF)
RTAはシグナルの純度でクラスターにフィルターを掛ける
– 純度が高いと “pass filter”と認識される
純度の計算には CHASTITYを適用
IA
IB
A C G T
BA
A
II
IC
CHASTITY Formula
19
Quality Filtering (PF)
A C G T
CHASTITY Formula
6
6/(6+0) = 1.0 Cしか存在しないので、Chastity =1の
純度が高いシグナル
純度が高い例:
20
Quality Filtering (PF)
A C G T
CHASTITY Formula
6
1.5
6/(6+1.5) = 0.8 近隣クラスターのSignal
を拾うが、Chastity は0.8
でまだ当該クラスターのBase Callに影響は及ぼさない範囲
通常の場合:
21
Quality Filtering (PF)
A C G T
CHASTITY Formula
6/(6+5) = 0.54
6
5
隣り合うクララスターが重なると、純度が低くなる。
CHASTITY <0.6
25サイクルまでに<0.6が2度以上でるとFilterを通らない。
純度が低い例:
22
RTAによるBase Call
Template Generation—クラスターの位置決め(番地決め)
Matrix の計算—このシグナルはどの塩基からのシグナルか?
Phasing の補正—SBS反応のモニター
Quality Filtering (PF)—このクラスターからのシグナルは不純がないか?
Phred Quality Scores—Callされた塩基のクオリティは?
23
Phred Quality Scores
Quliatyスコアとはなにか?
Callされた塩基が間違いである可能性を示す指標
Q Tableとスコア計算式により算出される
計算式は解としてQscoreを算出する
イルミナではQ30 以上の確率で正しい塩基の割合をスペックとしています。
– >Q30%
塩基が間違いである確率 Base call の精度
Q-score
1 in 10000 99.99% Q40
1 in 1000 99.9% Q30
1 in 100 99% Q20
1 in 10 90% Q10
24
RTAによるBase Call いつ計算されるか?
Template Generation—クラスターの位置決め(番地決め)
– サイクル1-4、R1のみ
Matrix の計算—このシグナルはどの塩基からのシグナルか?
– サイクル1-4、R1とR2
Phasing の補正—SBS反応のモニター
– サイクル1-12、R1とR2
Quality Filtering (PF)—このクラスターからのシグナルは不純がないか?
– サイクル1-25
Phred Quality Scores—Callされた塩基のクオリティは?
– サイクル25以降、さかのぼって計算される
25
PCR Amplicon はなぜBaseCallに影響を及ぼすか?
26
PCRAmpliconでのTemplate Generation
CYCLE 2 CYCLE 3 CYCLE 4
PhiX
CGAT
CYCLE 1
Amplicon
TEMPLATE
(クラスターの位置)
サイクル毎に異なる塩基が光るので、隣り合うクラスターは別の蛍光を発色。
隣り合っていても、異なるクラスターと認識される。
12個でなく、
8つと認識される
TEMPLATE
隣り合うクラスターは同じものと認識されてしまう
27
Matrix の計算: 蛍光の映り込みと蛍光の補正への影響
Matrix を計算することでそれぞれの塩基を正確に特定可能
T
PCR Amplicons:
参照となるシグナルが存在せず、正しく補正
できない
T
cluster 1
G
cluster 2
を除外
Tで画像を取得している際,
Gからの映り込みを無視する
Gで画像を取得している際,
TとGのシグナルを平均化する
T
cluster 1
を除外
G
cluster 2
28
Quality Filtering (PF) におけるPCR Ampliconの影響
Templateが正しく作成されないので、Overlapと認識されることが多くなる
12のうち8つのみ認識.
TEMPLATE
A C G T
CHASTITY Formula
6/(6+5) = 0.54
6
5
(CHASTITY <0.6)
X
X X
5つのみ pass filter
29
Low DiversityサンプルのRun結果を改善させる
30
方法1: Library designを再考する
R1とR2の最初12サイクルに多様性を持たせる
例 1: Long PCRを行い産物を断片化、DNA insertに多様性を持たせる.
– Nextera XTを使用
例 2: PCRprimerにN-NNNNまでの塩基を入れ、Offset PCR Primerで多様性を持たせる
– 文献を参照:Hummelen et al., Plos ONE 5: e12078
5’ Adapter 3’ Adapter
12 bases 12 bases
31
方法 1: Nextera XTを使用してLibrary Designを再考する
32
方法 1: Nextera XTを使用してLibrary Designを再考する
注意点:
– 1 ng のPCR Ampliconが必要
– 最短300bpのAmpliconが必要(1kbp程度が望ましい)
– 両端50bp程度Coverageが落ちる
http://www.illumina.com/products/nextera_xt_dna_sample_prep_kit.ilmn?scid=2012018PR1
33
方法1: Library designを再考する
R1とR2の最初12サイクルに多様性を持たせる
5’ Adapter 3’ Adapter
12 bases 12 bases
RTAによる計算 Sequence Qualityは向上するか?
Library
TEMPLATE GEN YES
MATRIX YES
PHASING YES
PASS FILTER YES
Qscore (%>Q30) YES
34
方法2:Ampliconの種類を増やす
– TruSeq Custom Amplicon (TSCA)の場合最少16種類必要
RTAによる計算 Sequence Qualityは向上するか?
Library Number Density MCS2.2 Spike-in
TEMPLATE GEN YES YES?
MATRIX YES YES?
PHASING YES YES?
PASS FILTER YES YES?
Qscore (%>Q30) YES YES?
35
方法3:クラスター密度を減らす
– 通常の半分程度に抑える
500K clusters/mm2程度
Yieldが減少する
RTAによる計算 Sequence Qualityは向上するか?
Library Number Density MCS2.2 Spike-in
TEMPLATE GEN YES YES? YES?
MATRIX YES YES? NO
PHASING YES YES? NO
PASS FILTER YES YES? YES?
Qscore (%>Q30) YES YES? YES?
36
方法4: MCSを2.2にUpgradeする
– Phasing, Prephasingの計算がすべてのサイクルで行われ、Base Callに反映される
Phasing, Prephasingの誤計算によるQuality Scoreの低下か解消される
– Matrix補正の計算に使用するサイクルも増加(-11サイクル)
– Upgrade手順等はTechnical Supportにお問い合わせください。
RTAによる計算 Sequence Qualityは向上するか?
Library Number Density MCS2.2 Spike-in
TEMPLATE GEN YES YES? YES? NO
MATRIX YES YES? NO YES
PHASING YES YES? NO YES
PASS FILTER YES YES? YES? NO
Qscore (%>Q30) YES YES? YES? YES?
37
方法 5: PhiXをv/v30-50 % spike in する
– 塩基の多様性を上げる
– サンプルからのYieldは減少する
– ほかのIndex付のサンプルでも問題なし
– サンプルリードに一部PhiX配列が検出されるする
BWAでPhiXにMappingして取り除く
RTAによる計算 Sequence Qualityは向上するか?
Library Number Density MCS2.2 Spike-in
TEMPLATE GEN YES YES? YES NO YES?
MATRIX YES YES? NO YES YES?
PHASING YES YES? NO YES YES?
PASS FILTER YES YES? YES? NO YES?
Qscore (%>Q30) YES YES? YES? YES? YES?
38
まとめ
Low diversity サンプルとはSequence リードが単一であるサンプルを指す
Low diversity サンプルではRTAの計算が正しく行われない
– Template Generation (サイクル 1-4)
– Matrix (サイクル1-4, R1 and R2)
– PhasingとPrephasing (サイクル 1-12, R1 and R2)
– Pass Filter (サイクル 25)
– Quality 計算 (サイクル 25 以降、さかのぼって)
どのように改善するか:
– Library design を再考する
– Ampliconの種類を増やす
– クラスター密度を減らす
– MCSを2.2にUpgradeする
– PhiXなどのバランスの良いサンプルをSpike Inする