Date post: | 21-Aug-2015 |
Category: |
Data & Analytics |
Upload: | joe-miyamoto |
View: | 265 times |
Download: | 0 times |
Reconstruction of clonal trees and tumor composition from multi-sample sequencing data
Mohammed El-Kebir et al
国立がんセンター研究所特任研究補助員
宮本 丈
ソフトウエア名: AncesTree
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
がんの進化モデル
• ヒトの場合、多時刻点でのデータ取得は難しい。• 進化過程の推測 -> 薬剤耐性の獲得過程などを知る
サンプリングの解像度
√
高コスト
低コスト
C ならば、種間の系統樹推定と同じ -> 距離が近いので、比較的簡単しかし• allelic drop out の問題• 増幅過程でのエラーの問題• コストの問題から、今のところ難しい。
A.B のどちらにも対応できる包括的な手法が求められる
A.bulk B.Multi-sample C.Single-cell
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
単純化のための仮定1. Cancer は単一の祖先細胞から派生したも
のと仮定2. CNA は今のところ考慮に入れない3. Infinite site assumption … 二度同じ部位に
変異が起きることはない
目標
これ から これを作る
複数の clone が混じったサンプル
F
Clone の系統樹 ( それぞれの頂点がユニークな遺伝型 )Tおよびそれぞれのサンプル中の割合 U
系統樹 T を行列表現 B に直す行 は、 T の頂点 の遺伝型を表す。
列はそれぞれの mutation を表す (0= 変異なし、 1= 変異あり )
このような B を完全系統樹行列と呼び、逆行列を持つ ( 証明略 )
さらに以下の条件を加えると、 T に対応する B はただひとつとなる
• を満たす r はただひとつ存在する ( 上図の一番上の行 )• 一番上以外の行 j には かつ
を満たすような k がただひとつ存在する->(i.e. 親がただひとつ存在する )
• 対角成分はすべて1
Usage Matrix U を定義するとF = ½(UB) が成り立つ
F … N( 変異箇所 )×M( サンプル数 ) の行列。要素 はサンプル p の i 番目の VAF を指すSum condition( 後述 ) を満たす
U … Usage Matrix 、 M × N の行列要素 はサンプル p におけるクローン i の割合
B … 完全系統樹行列
既知
未知
未知
このような定式化を VAFFP(Variant Allele Frequency Factorization Problem)と呼ぶ。こうすることで色々便利になる
Sum condition
• すべてのサンプル p 及び変異 j に対して
ただし δ(vj) は、 j が頂点 v で初めて出現した時 のみ 1 、それ以外は 0
T を作るために F が満たさなければならない仮定
Sum condition の直感的説明
1サンプルでは系統樹が一意に定まらない場合も
① ②
Wei Jiao. et al(2014)
Sum condition の直感的説明
2つ目のサンプルで一意に定まる場合がある
A < B + C のため、②ではデータを説明できない。
Wei Jiao. et al(2014)
過去の論文は…• M = 1 の特殊系だったり• F が頻度ではなく 2 値だったり• 観測された F と、モデルから生成された F
の距離を最小にするもの
だったりする
これらはみな、この定式化の特殊系とみなせる
VAFFP の解き方• 各々の変異を頂点にもつ完全グラフ G(V 、 A) を考える。• その中の部分グラフ G` のうち、以下の条件をみたすものを考
えると、 G` は一意に求まる ( 証明略 )
1. 有根2. 有向3. 非巡回4. 最小全域木 (Minimum Spanning Tree)5. 対応する T が sum condition を満たす
G` を求めれば、系統樹がわかる!
種々の成約のもとで、辺の数を最大化 ->
整数計画法とみなせ、 NP 完全実装は IBM の数理計画問題用 C++ ライブラリ、 CPLEX を用いて行った
VAFFP の解き方よって…以下の順に解く1. F から完全グラフ G を作成する2. G` およびそれに対応する完全系統樹行列 B を求める3. F = (1/2)UB を U について解く、
系統樹だけが知りたいのなら、2までで止めれば計算資源の削減になる
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
エラーを考慮に入れる
• 実際のシーケンスデータは、 VAF の頻度に誤差があり、T を作成できない場合がある。
• 祖先関係がはっきりしない変異をクラスタリングしてしまう
よって
エラーを考慮に入れる1. 観測された VAF のもとで、変異 j が変異 k の親
となる事後確率 を計算 ( 後述 )
2. を満たす j,kをクラスタ化
3. 変異 K,l がクラスタ間をまたがる場合は
の時のみ、親子とみなし辺を引くα… クラスタ係数β… クラスタ間結合係数、
の出し方• p,j における変異アレルの頻度を 、正常アレルの頻度
を とする
よって
• の分布 をとし
• を計算
最小全域木の仮定をゆるめる最大化すべき関数が
だったところに、罰則項を加える
に変更すると、すべての変異を選ぶ必要がなくなる。
実データでは、 CNA のせいで VAF が 0.5 を超える場合があるため
非常に有効な仮定
サンプル p 、変異 j の VAFクラスタ内の平均 VAF
今後の課題1. CNA を取り込む2. 複数回走らせ、結果を統合する (バギン
グ? ) みたいなことができるかも3. VAF の分布を β 分布で見積もるのは分散
を過小評価してしまう可能性あり (e.g. 増幅バイアス )
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
対抗ソフトウェア• CITUP
BICベースで、 U と B を同時に求める• SciClone
VAF 頻度分布に β 混合分布を仮定して変分ベイ ズで推定?詳細不明• PhylosubVAF 頻度分布を生成するモデルを、階層混合ディリクレ過程を用いた潜在空間モデルと想定し、 MCMC でパラメータ推定 最近 CNA にも対応したもよう
他の手法より優れているところ• VAF のデータを直接使わず、事後確率でクラスタ
リングするため、 ( 特に低 Depth で ) より正確。
• すべての変異を考慮する必要がない
• 系統樹のみを求めることができる
などといろいろあるが、実際には前半の定式化が美しかったからだと思われる
議論を厳密にし、がんの系統樹推定は整数計画法の形で表せることを示した