Mass Profiler Professional
簡易マニュアル
マニュアル作成環境: (旧版を下記で改定) ・Mass Profiler Professional B12.5
Build 179640
・MassHunter Qualitative Analysis
B.05.00 SP1
Page 1
Mass Profiler Professionalの主な機能
Page 2
機能 特徴
Fold Change グループ間の平均で閾値以上のコンポーネントを抽出します。
t-検定(2群)、ANOVA(3群以上)
グループ間で平均値とばらつきから、グループ間で変動があると判断されるコンポーネントを抽出します。
Volcano Plot Fold Changeとt-検定を同時に行います。
主成分分析(PCA) サンプル全体の大まかな傾向を視覚化します。
多変数(コンポーネント)を集約し、各データファイル(サンプル)の総合得点(スコア)を算出して、表示します。
各コンポーネントの係数(ローディング)とスコアの関係から、コンポーネントの考察を行うことができます。
クラスタ分析 似た変動のコンポーネントを集めて視覚化します。
Class Prediction
(判別予測、判別分析) グループ間の違いを表すコンポーネントと分類の基準値(コンポーネントのアバンダンス)を探し出し、サンプルをグループで分類します。分類後にコンポーネントと基準値が妥当かどうかの確認を行います。
Pathway分析
(オプション) バイオマーカー探索で主に用いられる機能。コンポーネントのライブラリサーチ結果から化合物の代謝経路などを推定し、Pathway
と呼ばれる化合物の反応経路の地図に落とし込む機能です。
MassHunterとMPP用いた解析の流れ
Page 3
MassHunter ・MSやRTの再現性良好なデータ
・xxx.d ⇒ xxx.cef変換
MPP MassHunter ※必須:マスクロマトグラムと
マススペクトルで確認
・データベースサーチや
組成式計算等
cef cef
③候補検出後確認
・Export for
Recursionで
化合物リスト作成 ・ID Browserで
化合物検索
①Experiment作成 強度正規化条件選択
1. None
2. Z-Transform
3. Baseline to (median/
mean) of (all/control)
samples 定型Wizard
Data Import Wizard
Class Prediction: Build and Test Model
Analysis: Significance Testing and Fold Change
②Analysis (差異の検出)
・Volcano Plot
・Clustering
・PCA
etc
任意Workflow
CEFファイル作成方法概要 (Agilent MassHunterユーザーのみ)
①該当データ上で右クリックします。
②Export as CEFを選択します。
③データ保存先等設定します。
④OKをクリックします。
処理するデータファイル数と Compounds数によっては 処理に長時間かかります。
Page 4
※Molecular Feature Extractor詳細はMassHunterガイドブックに記載されています
MPPソフトの概念と用語1
Page 5
Project ユーザーがデータを格納するワークスペースです。MPPを複数人で共有する場合など各個人でプロジェクトを作ると、閲覧権限等は設定できませんが、データを分けることができます。用途の異なるデータは混乱を招くため異なるプロジェクトにしたほうが無難です。
Experiment エクスペリメントはデータの解析単位になります。シグナルデータのインポートを行うとエクスペリメントが1つできます。ノーマライズはエクスペリメント単位で決定され変更することはできません。
Sample GC/MSやLC/MSのデータです。データファイル名がSample名になります。
Entity LC/MSの場合は、MFEで抽出されたFeatureです。サンプルごとの強度変動情報が含まれます。
Project A
・・・
Experiment 1
Sample (データファイルセット)
Condition (サンプルのグループ化情報)
Entity List
(クロマトグラムピークリスト)
Object
(クラスタツリー、判別モデル等)
Experiment 2
Sample (データファイルセット)
Condition (サンプルのグループ化情報)
Entity List
(クロマトグラムピークリスト)
Object
(クラスタツリー、判別モデル等)
※Experimentは他のProjectへコピーすることもできます。
拡大
1つ1つが
RT,分子量,強度
情報を持つデータ
= Entity = Feature
LC/MS注入
1回分のデータ = Sample
Experiment
A B C D E F
例:コーヒー豆種類= Parameter
A, B, C, etc. = Condition
MPPソフトの概念と用語2
Page 6
Interpretations(グループ定義)
Analysis(Entity List及び解析結果のオブジェクト)
Interpretations Interpretationは、MPPで読み込んだSample(データファイル)をグループ化して表示させる方法です。
Interpretationの元になるのはParameterです。
1つのSampleに複数のParameterが設定されている場合に、どのParameterでグループ化して表示し、クラスタ分析やt-検定、PCAなどを行うかを決めます。
Analysis 該当するSample(データファイル)を選択したInterpretationで解析した結果です。
プロジェクトを閉じる
Experiment
を作成する
既にあるExperimentをProjectに追加する
選択されたEntityのEntity Listを作成する
選択されたEntity List
のInspectorを表示する
CSVなどで作成したファイルをEntity ListとしてImportする
散布図を表示する
Profile Plotを表示する
ヒストグラムを表示する
マトリクスプロットを表示する
Venn図を表示する
箱髭図を表示する
ヒートマップを表示する
スプレッドシートを表示する
(Normal/Raw Abundance
で選択可能)
各サンプルの統計情報を表示する
新しいPathway
を作成する
MPP用語集①
Page 7
MPPの用語 意味
Alignment (アライメント)
アライメントは英語の「位置合わせ」の意味で、MPPではEntityを作成する際に行われます。 LC/MSやGC/MSのデータを読み込む際、複数のSample(データファイル)からそれぞれの化合物ピークの強度を1つのピーク情報としてまとめる必要があります。 ただ、LC/MSもGC/MSも、測定毎に多少リテンションタイムやMSのm/zがずれることがあります。 アライメントは、このような測定誤差を考慮して、リテンションタイムやm/zの許容誤差を設定します。 MPPへ読み込まれた複数のデータファイルのピークリスト(CEFファイルやELUファイル)に含まれるピークの情報(リテンションタイム、m/z、ピーク強度)から、アライメントの許容誤差範囲内のピーク同士をまとめて、1つのEntityとします。 許容誤差から外れたピークは、別のEntityとしてMPPで扱われます。
Condition 設定されたパラメータ内にある各条件です。Parameterが経時変化なら、『1時間、2時間、3時間』がCondition、Parameterが製造場所なら、『A工場、B工場、C工場』がConditionに相当します。MPP用語集のParameterも参照。
Entity EntityはMPPのデータの取り扱い単位の一つで、GC/MSやLC/MSのデータに含まれる化合物ピークのことを指します。 Entityには、化合物ピークのリテンションタイム、モデルイオン(m/z)、各サンプルのピーク強度が含まれます。
Hierarchical Cluster (階層型クラスタ)分析
階層型クラスタツリーは、データファイル間の距離を測り、距離の近いもの同士をまとめてクラスタとしてまとめていく手法です。 以下の手順で計算されます。 1.データファイル間の距離(MPPではピーク強度の変動パターンの類似度)を全て測定する。 2.距離の近いデータ同士をそれぞれまとめてクラスタを作る。 3.それぞれのクラスタの位置(重心など)を計算する。 4.クラスタ同士の位置を測定し、近いものをクラスタとしてまとめる。 5.新しくできたクラスタの位置を計算する。 6.4→5を、1つのクラスタになるまで繰り返す。 階層型クラスタは、計算が煩雑であるものの、k-means法のような「予めいくつのクラスタに分ける」ことが不要なため、適用範囲が広い手法と言えます。 階層型クラスタでは、データやクラスタ間の距離を「デンドログラム」というツリーで表します。デンドログラムの距離が離れているクラスタやデータ同士は、類似度が低くなります。 階層型クラスタ分析では、クラスタの位置や、クラスタ間の距離をどのように定義するかで、結果が異なることがあります。 例えば、距離の位置の定義を「クラスタ間の最短距離」とするか、「最長距離」とするかで、クラスタ間の違いを過小・過大評価することになります。 また、距離の測定方法もMPPではいくつかの手法が提供されており、デンドログラムのクラスタ間の距離に影響を与えます。
MPP用語集②
Page 8
MPPの用語 意味
Indentified
LC/MS(TOF,Q-TOF)やGC/MSDのデータをMPPに読み込む際に、「化合物名が(ライブラリサーチなどで)推定された」ピークリストをのことを「Identified」なピークリストといいます。 また、GC/QQQ、LC/QQQのMRMデータ、GC/MSDのスクリーナー結果も「Identified」の形式でMPPに読み込まれます。
Interpretation
Interpretationは、MPPで読み込んだSample(データファイル)をグループ化して表示させる方法です。 Interpretationの元になるのは「Parameter(HelpファイルにはConditionとも表記されることあり)」です。 1つのSampleに複数のParameterが設定されている場合に、どのParameterでグループ化して表示し、クラスタ分析やt-検定、PCAなどを行うかを決めます。 また、1つのParameterで複数回測定したデータ(レプリケイト;再現性などの確認のために取られたデータ)の強度を平均化するかどうかも、設定することができます。
k-means
k-meansクラスタ方は、古くから行われているクラスタ分析法で、データをあらかじめ「k個」のクラスタに分けることを決めてから、実際にデータを整理していく手法のことです。 例えば、あるデータの散布図上にある測定データを「4個」に分類する、と決めてクラスタ分析を行う場合、4k-means法といいます。 実際の計算は、以下のとおりです。 1.散布図上にランダムに4点のポイントを置く。 2.データファイルと4点のポイントとの距離を測り、データファイルを一番近いポイントとして分類する。(データファイルは4つのクラスタに分類される) 3.各クラスタの重心を計算する。(4つの重心が求まる) 4.3で求めた重心と、各データとの距離を測り、データファイルを一番近いポイントとして分類する。(データファイルは4つのクラスタに分類される) 5.上記3→4を、重心が移動しなくなるまで繰り返す。 k-means法は計算もそれほど煩雑でないため古くから行われていた手法ですが、最初のクラスタ数(kの値)をどのように決めるかで結果が異なるため、kの値が既知の実験でないと妥当性のある結果が得られない、と言われております。 そのため、MPPのクラスタ分析は、k-means法よりもHierarchical Cluster (階層型クラスタ)をまず行い、その結果から妥当なkの数を見つけてk-means法でEntityを分類するワークフローが提案されています。
Parameter Parameterは実験条件のことで、データを測定した条件のことを指します。 1時間、2時間、3時間がConditionなら、『経時変化』がParameter、A工場、B工場、C工場がConditionなら、『製造場所』がParameterに相当します。Conditionをまとめる概念です。
Unidentified
Unidentifiedは、MPPにLC/MS(TOF,Q-TOF)やGC/MSDのデータファイルを読み込む際に、「化合物名が(ライブラリサーチなどで)推定されていない」ピークリストをのことをいいます。 Unidentifiedで読み込まれたEntityのCompound Nameは「m/z@RT」の形式で名前が付けられます。 GC/MSDのAMDISの場合は、ELUファイルをUnidentifiedファイルとして 読み込みますが、AMDISのIdentifiedのピークリストであるFINファイルに含まれるピークは、ELUファイル にも含まれます。
Mass Profiler Pro. (MPP)のワークフロー、、、その前に
Entity Listの作成 データファイルの
読み込み
ピークアライメント
(Entityの作成)
Entityのフィルター
(ノイズ除去)
グループ定義
データの準備
PCA(主成分分析)
階層型クラスタ分析 統計的有意差によるEntity 抽出
t-検定、ANOVA解析
分けて見つける
IDBrowser
(化合物の推定) Class Prediction
(判別分析)
推定する
Entity Listの出力 ChemStation, MassHunter
での解析
詳細のクロマトグラム・マススペクトルを解析する
ChemStation, MassHunter
でデータを取る。
実験計画を検討する。
目的、仮説など。
条件を満たすEntityを探す
(Venn図)
Page 9
Page 10
MPPによる解析に持ち込むまでの
Agilentプラットフォームのデータ処理概略
分析装置
SQ
or
QQQ
ChemStation
AMDIS
(.elu)
Target analysis
TOF, QTOF
or
QQQ
Target analysis
or
Non-target analysis target
analysis
MFE
(.cef) Find by Formula
(.cef)
LC/MS GC/MS
TOF,
QTOF QQQ SQ QQQ
Non-
target Target
Quant Report
(.xml) Quant
Report
(.xml)
“Unidentified” or
“Combined” experiment “Identified” experiment “Unidentified” or
“Combined” experiment
“Identified”
experiment
Target analysis
or
Non-target analysis
Quant Report
(.xml)
“Identified”
experiment
Target
Non-
target
Target analysis
ICP-MS
Quant
Report
(.xls, .csv)
“Identified”
experiment
Mass Profiler Pro. (MPP)のワークフロー
Entity Listの作成 データファイルの
読み込み
ピークアライメント
(Entityの作成)
Entityのフィルター
(ノイズ除去)
グループ定義
データの準備
PCA(主成分分析)
階層型クラスタ分析 統計的有意差によるEntity 抽出
t-検定、ANOVA解析
分けて見つける
IDBrowser
(化合物の推定) Class Prediction
(判別分析)
推定する
Entity Listの出力 ChemStation, MassHunter
での解析
詳細のクロマトグラム・マススペクトルを解析する
ChemStation, MassHunter
でデータを取る。
実験計画を検討する。
目的、仮説など。
条件を満たすEntityを探す
(Venn図)
Page 11
Page 12
Analysis Workflow(Baselining Option設定後に起動)
Summary Report Experiment Grouping
(Interpretationも作成) Filter Flags
Filter By Frequency QC on samples
(表示のみ)
Significance Analysis/Fold Change
ID Browser Identification Finish!!
Page 13
Workflow(Baselining Option設定後)メニュー一覧
主に上から順に
設定します
Page 14
MPP起動
Projectはexperimentの上位構造です。
(例:project名 metabolites
Experiment名 LCMS_positive, negative,
GCMS_positive, negaive など)
Page 15
ProjectとExperiment作成(1/2)
project
Experiment 1 Experiment 2
…
Page 16
ProjectとExperiment作成(2/2)
同定、未同定混合の場合は
“Combined”
MRMデータ等、全化合物が同定されている場合は“Identified”
化合物が全く同定されていない場合は“Unidentified”
※重要:正しく選択してください
まずはMPP、オプションがある場合は
Pathwayも選択可
Data Import:データ取り込み
Analysis:限定された解析の流れ
Class Prediction:判別分析 この画面は合成してあります
Page 17
Data Import Wizardの流れ:
MS Experiment Creation Wizard (1/11)
TOF LC/MSデータ
Pathway解析(page 155)の場合のみ
正しく選択することが必須です
Page 18
MS Experiment Creation Wizard (2/11)
Page 19
MS Experiment Creation Wizard (2/11)
Page 20
MS Experiment Creation Wizard (5/11)
Sampleの表示順番を変更できます
Page 21
MS Experiment Creation Wizard (6/11)
最終的に全てにグループ名を
付けます
Page 22
MS Experiment Creation Wizard (7/11)
特定の保持時間領域のみでの比較や
一定のイオン強度以上の化合物のみで
比較を行いたいときに使用します。
一般には全データを使用する設定にします。
Page 23
MS Experiment Creation Wizard (8/11)
化合物のアライメント(LC/MSの場合) RT Window= 0.1% + 0.15 min Mass Window= 5.0 ppm + 2.0 mDa
既知物質を用いて保持時間の補正を行なう場合、
Perform RT correlationをチェックし、with standardsを
選択します。
CE/MSではMT(MPP内ではRTと表示されます), m/zに
よるアラインメントを測定条件によって変化させますが、
この値を大きくすると異なる化合物を同一と誤認識する
フォールスポジティブのリスクが高くなりますので
注意が必要です。具体例は後述します。
Page 24
MS Experiment Creation Wizard (9/11)
点の色はFrequencyを表します。 再現性の悪いものは赤色で、全てのサンプルに共通して存在し、アライメントされたものは青色で表示されます。 アライメント条件が厳しいと、Frequencyが低いEntityが増えます。 結果を見ながら必要に応じてBackボタンで前画面に戻り、アライメント条件やFilter条件を修正します。
Page 25
MS Experiment Creation Wizard (10/11)
既知物質を用いてイオン強度の補正をする場合に使用します。
Page 26
MS Experiment Creation Wizard (11/11)
化合物強度の正規化を行ないます。次ページから詳しく説明しますが、サンプル間の変動の絶対値で比較したい
場合はBaseline to (median / mean) of (all / control) across samples、
サンプル間の変動の比率で比較したい場合はZ-Transformを選択してください。
化合物間のダイナミックレンジが広い、生体サンプルなどの分析にはZ-Transformを推奨します。
Page 27
0
200000
400000
600000
800000
1000000
1200000
sample A sample B sample C
compound 1
compound 2
compound 1 compound 2
sample A 0 900000
sample B 1000 1000000
sample C 1100 970000
正規化 (1) None
各正規化法による化合物強度の差をプロットする例として、
左下テーブルの様な実験データが得られたとします。
Baselining optionsでNoneを選択すると、正規化は行われません。
よって、全てraw data abundanceで比較することになるので、直観的には理解しやすいのですが、
正規化を行うと、Normalized abundance = 0は必ずしも
raw data abundance = 0を意味しなくなります。
他に存在量の多い化合物が存在すると(ここでは、compound 2)、存在量の少ない化合物の変動が
相対的に小さなものとされてしまいます。
Page 28
正規化 (2) Baseline to (median / mean) of (all / control)
across samples
compound 1 compound 2
sample A 0 900000
sample B 1000 1000000
sample C 1100 970000
正規化
前ページで示された化合物強度を中央値か平均値で正規化します。
下記は、各化合物の中央値との間の差に変換する場合の説明です。
(eg. Compound 1: 中央値=1000, Normalized abundance of A = 0-1000 = -1000)
中央値をNormalized abundance = 0とするため、絶対値の変動の大きい化合物が強調されますが、
化合物間で広いダイナミックレンジを持つサンプルでは、変動比率が大きくても強度変動の
絶対値が小さい化合物は全く変動していないかの様に見えてしまいます。
compound 1 compound 2
sample A -1000 -70000
sample B 0 30000
sample C 100 0 -80000
-60000
-40000
-20000
0
20000
40000
sample A sample B sample C compound 1
compound 2
median
Page 29
正規化 (3) Z-Transform
compound 1 compound 2
sample A 0 900000
sample B 1000 1000000
sample C 1100 970000
正規化
Z-Transformは強度変動の比率を考慮した正規化方法です。
Baselining optionsでZ-Transformを選択すると、各化合物強度は
前ページで求めた、各化合物の中央値との差をそれぞれの化合物強度の
標本分散で割った値に変換されます。
生体由来などの様に存在量の多い化合物、微量な化合物が混在しているサンプルでは
有効な手法ですが、Quality Controlを行い、信頼性の低い(サンプル群内の繰り返し再現性を
チェックすることで除去することが出来ます)entityを除かなければ
相対強度0.1%から1.0%に増加したノイズを10倍に変動した化合物とみなしてしまうことになります。
compound 1 compound 2
sample A -0.004054054 -3.98734E-05
sample B 0 1.70886E-05
sample C 0.000405405 0 -0.0045
-0.004
-0.0035
-0.003
-0.0025
-0.002
-0.0015
-0.001
-0.0005
0
0.0005
0.001
sample A sample B sample C
compound 1
compound 2
Page 30
MS Experiment Creation (正規化None)
全く同一データですが、縦軸の
正規化の違いだけで大きく見え方が
異なることに注意が必要です
Page 31
MS Experiment Creation (正規化Z-transform)
全く同一データですが、縦軸の
正規化の違いだけで大きく見え方が
異なることに注意が必要です
Entity Listの作成 データファイルの
読み込み
ピークアライメント
(Entityの作成)
Entityのフィルター
(ノイズ除去)
グループ定義
データの準備
PCA(主成分分析)
階層型クラスタ分析 統計的有意差によるEntity 抽出
t-検定、ANOVA解析
分けて見つける
IDBrowser
(化合物の推定) Class Prediction
(判別分析)
推定する
Entity Listの出力 ChemStation, MassHunter
での解析
詳細のクロマトグラム・マススペクトルを解析する
ChemStation, MassHunter
でデータを取る。
実験計画を検討する。
目的、仮説など。
条件を満たすEntityを探す
(Venn図)
Page 32
Page 33
仮にn=4で測定した場合、その4つの
ファイルが同一の群であることを
宣言しなければなりません。
群を表すパラメーターは複数設定する
ことができます。
(例:男性or女性、20代or30代or40代、、
日本人orアメリカ人or中国人)
サンプル群の定義
“Experiment Grouping”を
選択し、グループを示す
パラメーターを与えます。
p.21で設定済みの場合は不要です。
Page 34
同じパラメーターを繰り返し入力するのは面倒なのですが、 どうにかなりませんか??
指定したいサンプルをドラッグで選択後、”Assign Values”を選択すると、
一括でパラメーターを入力することができます。
Page 35
Replicateはどの様に用意したら良いのでしょうか?
また、1つのサンプル群当たりどのくらいのreplicateが必要なのでしょうか?
T I M E
0 wks 2 wks 6 wks
n=3
n=3 n=3 n=3
n=3 n=3
×3 injection
×1 injection
×1 injection
×1 injection Technical replicate
Biological replicate
Technical replicateから得られる
ことが出来るのは測定誤差のみです。
個体差を考慮することは出来ません。
また、Aを3回分析した結果を平均化
することは厳密にはサンプル群
0wks, Treated を代表していること
にはなりません。例えreplicateの数を
増やしていったとしても、それは個体A
を代表した値になります。
Biological replicateはreplicate数を増やすことで、サンプル群(例:2wks,
Treated)の真値に近づくことが出来ます。
Replicateの適正数ですが、Biological
replicateであればn=10はほしいところです。実験のコスト(時間的なコスト含め)を考えた上で設定してください。
本マニュアルで使用しているデータは
Technical replicate, n=3の実験系に
なっています。
A
B
C D
E
F
Page 36
Interpretations (Categorical, Non-averaged)
“Create Interpretation”を選択し、”Categorical”と
”Non-Averaged”では、ばらつきを評価しやすい
表示です。
Page 37
Interpretations (Categorical, Averaged)
“Create Interpretation”を選択し、”Categorical”と
”Averaged”では各Condition毎の平均表示です。
4 n x 6 group = 24 群という扱われ方 だったのですが、4回測定を平均化し、 1 x 6group = 6群の比較にまとめました。
Page 38
Interpretations (Numerical, Averaged) “Create Interpretation”を選択し、”Numerical”と
”Averaged”では各Condition毎の平均表示です。
0日目 1日目 2日目 3日目 4日目 5日目
各Condition内での再現性が良好で 計時変化を視覚化したい場合等に 有効です。
Page 39
サンプル群の表示順を並び替えたいのですが、 どうすればいいでしょうか?
Profile plot、もしくはMatrix plotの
画面上で右クリックをし、
“Properties”を選択してください。
Columnsタブ上で移動させたい
サンプル群を選択し、上下に移動
させてください。
表示順の入れ替えは、平均化の前後
どちらでも行うことが出来ます。
100% 66%
Page 40
QC: Filterを使ってEntity中から再現性の悪いデータポイントを除きます。
“Filter by Frequency”を選択し、サンプル群内でシグナルが現れる頻度によって
フィルターをかけることができます。具体的にはn=3測定中、2回以上現れるデータポイントを
採用するのであれば、この値は66.6%となります。次ページ参照。
FilterをかけることでEntity数が
絞り込まれていることを
確認してください。
Page 41
Filter by Frequencyの例
at least 100% of all samples at least 66% of samples within each condition ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ○ ● ● ● ● ● ●
at least 100% of samples in only one condition ● ● ● ● ● ○ ● ● ●
● ● ● ○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ○
○ ○ ○ ● ● ● ○ ○ ○ ● ● ○ ● ● ○ ● ● ●
● ● ○ ● ● ● ● ● ○
○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ○ ● ● ○
● ● ○ ● ● ○ ● ● ○
at least 100% of samples in at least one condition ● ● ● ○ ○ ○ ○ ○ ○
○ ○ ○ ● ● ● ○ ○ ○ at least 66% of samples in at least one condition ○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ○ ○ ○ ● ● ● ● ● ● ○ ○ ○
● ● ● ○ ○ ○ ● ● ● ● ● ● ○ ○ ○ ● ● ●
○ ○ ○ ● ● ● ● ● ● ○ ○ ○ ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ○ ○ ○ ○ ○ ○
○ ○ ○ ● ● ● ○ ○ ○
○ ○ ○ ○ ○ ○ ● ● ●
at least 66% of samples in only one condition ● ● ● ○ ○ ○ ○ ○ ○ ● ● ● ● ● ○ ● ● ○
○ ○ ○ ● ● ● ○ ○ ○ ● ● ○ ● ● ● ● ● ○
○ ○ ○ ○ ○ ○ ● ● ● ● ● ○ ● ● ○ ● ● ●
● ● ○ ○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ○
● ○ ● ○ ○ ○ ○ ○ ○ (以下この組合せは省略) ● ● ● ● ● ○ ● ● ●
○ ● ● ○ ○ ○ ○ ○ ○ (以下この組合せは省略) ● ● ○ ● ● ● ● ● ●
○ ○ ○ ● ● ○ ○ ○ ○ ● ● ○ ● ● ○ ○ ○ ○
● ● ○ ○ ○ ○ ● ● ○
○ ○ ○ ○ ○ ○ ● ● ○ ○ ○ ○ ● ● ○ ● ● ○
● ● ○ ○ ○ ○ ○ ○ ○
凡例 ● :検出される ○ ○ ○ ● ● ○ ○ ○ ○
○ ○ ○ ○ ○ ○ ● ● ○
○ :検出されない
Page 42
QC: Filterを使ってEntity中から再現性の悪いデータポイントを除きます。(2)
“Filter by Sample Variability”を選択し、サンプル群内のシグナル強度のCV値で
フィルターをかけることができます。
この項目は、全サンプル群中の何群で上記の再現性条件を満たしたかでEntityをフィルターする
ことを示しています。例では at least 8 out of 8 conditions となっていますので、8群全てで
CV値が30%以下である化合物を残すことを意味しています。
< 40% < 20% < 30%
6 8
Entity Listの作成 データファイルの
読み込み
ピークアライメント
(Entityの作成)
Entityのフィルター
(ノイズ除去)
グループ定義
データの準備
PCA(主成分分析)
階層型クラスタ分析 統計的有意差によるEntity 抽出
t-検定、ANOVA解析
分けて見つける
IDBrowser
(化合物の推定) Class Prediction
(判別分析)
推定する
Entity Listの出力 ChemStation, MassHunter
での解析
詳細のクロマトグラム・マススペクトルを解析する
ChemStation, MassHunter
でデータを取る。
実験計画を検討する。
目的、仮説など。
条件を満たすEntityを探す
(Venn図)
Page 43
2群比較 T検定;2つのサンプル群について有意差があるかどうかを検定
Fold解析;2つのサンプル群のデータから、何倍の差があるかでフィルターをかける機能
Volcano Plot ; t検定とFold解析の結果を視覚化したもの
3群以上比較 ANOVA(分散分析) ;
3群以上のデータからの有意差があるかどうかを検定
表現方法 主成分(PCA)分析;大まかな傾向を視覚化するツール
クラスタリング;差のある化合物どうしをまとめるツール
判別分析 ;未知試料がどの母集団に属するかを調べるツール
統計解析のためのツール
t検定 A群 B群
95%以上の確率でここに入る
Page 44 Page 44
Page 45
T検定の限界
2群間比較のみ
実験デザインが3群以上の場合、ANOVAが必須
分散 (Variance) が小さい場合、平均差が殆どなくても ”統計的に差がある”
という結果が生じてしまう
→Fold解析との組合せが有効
→ Volcano Plot (→page 95)
T検定だけでは、統計的に偽陽性を排除できない
多重検定補正が必要 (→page 71)
PRINCIPAL COMPONENTS ANALYSIS
(PCA, 主成分分析)
Page 46
3D表示 2D表示
PCA Score Plot(各サンプルの大まかな傾向を表示)
Page 47
主成分分析 (PCA)
主成分分析は、一般的に、多くの変量の値をできるだけ情報の損失なしに,1個または少数個の総合的指標(スコア)で代表させる方法です。サンプル間の違いを、LC/MSデータ
のクロマトグラムピークの情報を元にして、以下の式でスコア(得点)で表します。
サンプルのスコア(得点)=Σ (各EntityのLoading x 各ピークのピーク強度)
ここで、クロマトグラム中の各ピークの重みつけであるLoadingは、サンプル間のスコア
が最もばらつくように計算された、各ピーク固有の係数です[1]。
スコアは理論上、サンプルに含まれるピークの数だけ計算できますが、PCAの目的は「少数個のスコアでサンプル間の違いを解釈する」ことですので、通常は1~3個のスコアを求めて、スコアとLoadingの解析を行います。
サンプルの違いを表す情報量を最も表しているスコアから順番に第1主成分(Component 1)、第2主成分(Component 2)・・・と呼びます。[2]
サンプルごとの各主成分のスコアを表した図が「スコアプロット」、クロマトグラムピークの各主成分のLoadingを表した図がLoading Plotになります。
[1] 詳しい計算方法は、ケモメトリクスや統計解析の書籍を参照ください。ここでは、PCAをMPPで行う際、スコアを求めるためのLoading計算は、ソフトウェアで自動的に行われることのみ、ご紹介させていただきます。 [2] この章で扱う「主成分」という言葉は”サンプル間の違い”という情報量に対する言葉です。
Page 48
PCA(主成分分析)の基本的な考え方
Page 49
試料A
試料B
試料C
ピーク① ピーク②
ピーク③
10 15 4
10 4 15
7 15 5
試料A~試料Cの特徴が分かるように、各ピークの面積を元にして試料の総合得点(スコア)を付けることを考える。
ピーク
係数
試料
①
a
②
b
③
c スコア(u)
試料A 10 15 4 10a+15b+4c
試料B 10 4 15 10a+4b+15c
試料C 7 15 5 7a+15b+5c
分散
(ばらつき) s1 s2 s3 su
すなわち、
u= ax1+bx2+cx3
となるスコアuを考える。(x1, x2, x3はピーク①~③の面積値)
uの分散suが最も大きくなるような係数a, b, cを計算することで、試料A~試料Cのスコアが最も離れて、特徴が区別できるようになります。
この計算は、MPPで自動的に計算されます。
PCAの計算結果(第1主成分)
Page 50
試料A
試料B
試料C
ピーク① ピーク②
ピーク③
10 15 4
10 4 15
7 15 5
試料A~試料Cの各ピークの計算結果
ピーク
係数
試料
①
0.00
②
-0.63
③
0.78 スコア(u)
試料A 10 15 4 -6.30
試料B 10 4 15 9.17
試料C 7 15 5 -5.52
分散
(ばらつき) s1 s2 s3 su
スコア(u)
-6.30 9.17 -5.52
結果から分かること
1.ピーク①は試料間の違いにあまり関与しない(係数が0)
2.ピーク②は試料間の違いを表すスコアuに“負の影響”を与える
3.ピーク③は試料間の違いを表すスコアuに“正の影響”を与える
PCAの計算 (第2主成分)
Page 51
試料A
試料B
試料C
ピーク① ピーク②
ピーク③
10 15 4
10 4 15
7 15 5
試料A~試料Cの各ピークの第2主成分の計算
ピーク
係数
試料
①
d
②
e
③
f スコア(v)
試料A 10*(1-0.00) 15*(1+0.63) 4*(1-0.78) 10d+
24.42e+0.89f
試料B 10*(1-0.00) 4*(1+0.63) 15*(1-0.78) 10d+ 6.51e+3.33f
試料C 7*(1-0.00) 15*(1+0.63) 5*(1-0.78) 10d+
24.42e+1.11f
分散
(ばらつき)
s4 s5 s6 sv
v= dx1(1-a)+ex2(1-b)+fx3(1-c)
となるスコアvを考える。(x1, x2, x3はピーク①~③の面積値)
vの分散svが最も大きくなるような係数d, e, fを計算することで、試料A~試料Cのスコアが最も離れて、特徴が区別できるようになります。
この計算は、MPPで自動的に計算されます。
PCAの計算結果(第2主成分)
Page 52
試料A
試料B
試料C
ピーク① ピーク②
ピーク③
10 15 4
10 4 15
7 15 5
試料A~試料Cの各ピークの計算結果(第2主成分)
ピーク
係数
試料
①
0.00
②
0.82
③
0.57 スコア(v)
試料A 10 15 4 20.56
試料B 10 4 15 7.25
試料C 7 15 5 20.69
分散
(ばらつき) s1 s2 s3 sv
スコア(u)
-6.30
20.56
9.17
7.25
-5.52
20.69
結果から分かること
1.ピーク①は試料間の違いにあまり関与しない(係数が0)
2.ピーク②は試料間の違いを表すスコアvに“正の影響”を与える
3.ピーク③は試料間の違いを表すスコアvに“正の影響”を与える
スコア(v)
PCAのLoadingとScore
Page 53
試料A
試料B
試料C
ピーク① ピーク②
ピーク③
10 15 4
10 4 15
7 15 5
スコア(u)
-6.30
20.56
9.17
7.25
-5.52
20.69
スコア(v)
ピーク
スコア ① ② ③
u 0.00 -0.63 0.78
v 0.00 0.82 0.57
各試料のスコアの係数をLoadingといい、スコアに与える影響度を表す。
スコア(u)
スコア(v)
①
②
③
Loading Plot
Score Plot
各試料の情報(属性など)からScore
Plotのスコアu,vの意味付けを行い、その意味付けについて、クロマトグラム中の各ピークの影響度をLoading Plotから理解します。
Page 54
主成分分析 (PCA, Score plot)
Next
各サンプルの傾向を視覚化するには、Score plotが便利です。
各サンプルの傾向を表示するためには、平均化していない
Interpretationを選択する必要があります。
また、ここで指定するentity listを再現性や統計的有意差に
よって絞り込むことで、各サンプル群のPCA結果が各々の
特徴を反映していきます。
Page 55
主成分分析 (PCA, Score plot)
Eigenvalues は各主成分の寄与率(情報量全体のうちその主成分が説明できる割合)を示しています。赤のプロットは各主成分の寄与率を、青のプロットは寄与率の累積値を示します。一般的に、この寄与率が70~80%以上であれば、よく説明されていると言われます。また、少ない主成分で多くの寄与率があるほど、よいモデルであると言われます。
3次元空間上でCtrlキーを押しながら
マウスカーソルをドラッグさせると、
軸を回転させることができます。
また、Shiftキーを押しながら
マウスカーソルを上下にドラッグさせると
ズームイン・アウトができます。
Page 56
主成分分析 (PCA, Score plot)
データ処理によるPCA(主成分解析)の変化
PCA of the data
All entities (19786)
PCA of the data
Entities filtered by frequency (3744)
品種 A 品種 B 品種 C
FILTRATION FILTRATION
PCA of the data
Entites after ANOVA (p≤0.05)
& Fold Change (≥2.0) (93)
各種、統計的フィルターを使って有意に差のある化合物を絞り込んでいくことで、サンプル群の傾向がはっきりしてくることがわかります。
後述する判別分析 (Page 121)ではこの様に特徴付けが明白なentity list
を用いることで、精度の高い判別結果が得られます。
Page 57
Page 25参照
Page 69 - 77参照
Page 58
主成分分析 (PCA, Loading Plot)
PCAはサンプル群を三次元空間に表示するScore Plotだけでなく、
各化合物を二次元上にLoading Plotで表示させることも可能です。
使用可能な統計の検定
2-Way 3-Way
T-Test ANOVA
Time 24 hr Time 0 hr Time 0 hr Time 24 hr Time 48 hr
Time
0 hr
24hr
Treatment
Control
Drug A
Genotype
WT
KO X
Time
0 hr
24hr
Treatment
Control
Drug A X
One-way Tests: 一つのパラメータでサンプルグループを比較する。
N-way Tests: 2つ以上のパラメータでサンプルグループを比較する。
Page 59
2つのサンプルグループを比較するOne-way Tests
パラメトリック検定:
• T-test unpaired
• T-test paired
• T-test unpaired unequal
variance
ノンパラメトリック検定
• Mann-Whitney unpaired
• Mann-Whitney paired
Page 60
Paired T-tests
もっとも一般的な組み合わせの例としては、例えば右の表のように、変数として各個人を表し、もう一つの変数として、コーヒーを“飲む前”と“飲んだ後”の器用さといったような、ものがあります。
もし、各個人の個人差が大きく、“コーヒーの効果” が小さい場合は、t-testでコーヒーの差を検出するには非常に多くの個人の情報(Biological replicates)を集めないといけません。
paired t-testを使用することで、グループ間の変動が、グループ自身の変動より小さい場合でも、統計検出力をt-testよりも高めることができます。
Dexterity
Before
Coffee
Dexterity
After
1 Cup of
Coffee
Dan 5.4 3.9
Kelly 5.9 4.5
Tom 7.6 6.3
Janet 8.2 7.9
David 4.7 5.0
Page 61
Parametric Test (パラメトリック検定)
正規分布は上記の図のように釣鐘型の形をしており、平均値に対して左右対称の形をしています。平均値から両側1σ(標準偏差)までの面積が全体の 68.26% 、2σまでの面積が全体の95.44%、3σまでが全体の97.5%の面積を占めます。
MPPのパラメトリック統計検定(Parametric statistical tests)では、各化合物ピークのアバンダンスが正規分布の母集団からサンプリングされたと仮定して検定を行います。
パラメトリック統計検定(Parametric statistical test)の 不等分散(unequal variances)では、比較するサンプルグループの分散(σ2 )が等しくないという前提で検定を行います。
Expression of Gene X
頻度
µ = 母集団平均
σ = 母集団標準偏差
Page 62
Non-parametric Tests (ノンパラメトリック検定) Non-parametric Testsは正規分布を前提としません。
サンプルグループ間の分散が等しくないと想定します。
測定サンプルデータの標準化データ(Normalized Data)の順番に番号をつけ、標準化データ逸脱値の影響を減らします。
サンプルグループ間の繰り返し回数(replicates)が少ないと、 同じサンプルグループでパラメトリック検定(parametric tests)を行った場合に比べて、統計的検出力は少ないです。
Gene X Untreated
Normalized
Intensity
Treated
Normalized
Intensity
Untreated
Rank
Treated
Rank
Replicate 1 4.5 1.3 6 2
Replicate 2 .7 1.7 1 3
Replicate 3 2.3 3.5 4 5
Page 63
3つ以上のサンプルグループを比較するOne-way Tests
パラメトリック検定
• ANOVA
• ANOVA unequal variance (Welch
ANOVA)
• Repeated measures
ノンパラメトリック検定
• Kruskal Walis
• Friedman
Page 64
Repeated Measures ANOVA
もし、各個人の差が大きく、 、“コーヒーの効果” が小さい場合は、ANOVAでコーヒーの差を検出するには非常に多くの個人の情報(Biological replicates)を集めないといけません。
Repeated Measures ANOVA を使用することで、グループ間の変動が、グループ自身の変動より小さい場合でも、統計検出力を高めることができます。
Paired t-testと同様に、各個人の個人差による変動を効率よく除去するにはいくつかの段階を経る必要があります。
Dexterity
Before
Coffee
Dexterity
After
1 Cup of
Coffee
Dexterity
After 2
Cups of
Coffee
Dan 5.4 3.9 3.7
Kelly 5.9 4.5 4.6
Tom 7.6 6.3 6.0
Janet 8.2 7.9 5.8
David 4.7 5.0 3.2
Page 65
統計学的有意差のイメージ
Page 66
P-value の計算方法
Asymptotic Method(漸近法)
• 算出の前提として、化合物ピークのアバンダンスが正規分布をして各分布の分散が等しいとします。
• よって、検定で使用されるパラメータ (t-ratio, f-ratio) も同様に正規分布すると仮定し、計算します。
• これらの前提をしないで計算する場合は、以下のPermutation Methodでp-
valueを計算します。
Permutation Method(並べ替え法)
• 潜在的に存在する分布を想定しません。
• サンプルを並べ替えて、調査のためのテスト評価基準の分布を作成します。(Permute samples and build distribution of test metrics for probe)
• P-value は順番に並べられた計算値が実測値よりも大きくなる割合です。(the
fraction of permutations in which the test metric computed is larger than the
actual test metric for that sample)
Page 67
Permutation testとは
ある観測で、
A集団の平均>B集団の平均
という結果が得られたとする。その平均値の差をxとする。
ここで帰無仮説:
A集団の平均=B集団の平均
として、AとBのサンプルを1つにまとめ、サンプルサイズ=nからなる母集団からランダムにとってきた集団とみなす。
この集団をランダムな2つの集団に分け直す。この場合、サンプルの組み合わせは全部で(n)C(1/2n)通り。
もしA,Bの属する母集団が同じであって平均値の違いはたまたま生じた差だとすれば、全ての組み合わせの中でも、xより大きな差は頻繁に見られるはず。
そこで、「全ての組み合わせについて平均値の差を計算して」、xより大きい組み合わせがいくつあるか数える。それが、全ての組み合わせのうち5%を越えていたら「たまたま生じた差」とみなす。
Page 68
What p-value Cut-off to Use?
Depends on what type of error you are more comfortable with
• Type I の誤り (false positive): 有意差がないのにあると判定されてしまった
• Type II 誤り (false negative): 有意差があるのにないと判定されてしまった。
P-ValueのCut-offはtype I の誤りと type IIの誤りのトレードオフとなる。
5HT1c 0.002364
NFL 0.002649
NMDA2C 0.017181
aFGF 0.027544
GRa3 0.041179
actin 0.045342
nAChRd 0.046372
EGFR 0.0468
bFGF 0.087842
5HT2 0.106591
Brm 0.137903
SOD 0.147089
mGluR2 0.174708
IGF.I 0.223558
SC2 0.274809
trkC 0.288776
mGluR1 0.313801
SC6 0.343059
CNTFR 0.354717
pre-GAD67 0.366955
BDNF.rat 0.417615
GDNF 0.421125
IP3R2 0.421308
L1 0.443525
GAD67 0.462416
H2AZ 0.561907
IP3R1 0.573717
MK2 0.630177
CCO2 0.640797
mGluR3 0.654866
PDGFa 0.659352
IGF.II 0.683554
CNTF 0.690512
nAChRe 0.701041
IGFR2 0.728141
GAP43 0.732078
ODC 0.745628
SC1 0.74575
NT3 0.78811
PTN 0.795557
trk 0.82403
mGluR5 0.8305
cjun 0.839991
Ins2 0.841945
MAP2 0.851833
neno 0.879299
GRb1 0.888485
TCP 0.892361
GRb2 0.900601
S100beta 0.930265
本当は有意差があるサンプル。
本当は有意差がないサンプル。
p-value=0.05
検定で有意差があると判定
検定で有意差がないと判定
Page 69
Page 70
T-検定、およびANOVAによるentityの絞り込み
Next
Next
Next
3群以上の比較にはANOVA を
選択してください。
ANOVAにより、entityがp値で絞り込まれました。
P値はデフォルトで0.05 (棄却域5%) になっていますが、
この数値を小さくすると、より化合物数が絞られます。
多重検定の補正
Page 71
統計の多重検定の問題点
• 統計計算を多くの化合物ピークで行うため、5%のp-valueでも、ちりも積もればかなりの量となる。
– 10000 peaks = 10000 回、個別に統計検定を実施
– p-value = 0.05 として10000 のピークに対して検定を行うと・・・
• 500 peaks (0.05 x 10000) でType Iの誤りが発生する可能性がある。
• 統計検定の回数を増やせば増やすほど、それに比例してfalse positiveも増加してしまう。
• 統計解析を行う前に、データのQuality Controlを行うことで、false positiveの数を減らすことができる。
• 多重検定補正(multiple testing correction:MTC) を行うことで、更にfalse
positiveを減らすことができる。
Page 72
MPPのMultiple Testing Correction (多重検定補正)
オプション
Family-wise error rate (FWER)
– Bonferroni
– Bonferroni Holm
False Discovery Rate (FDR)
– Benjamini Hochberg
Individual (genewise) error rate (p-value cut-off)
(Probability of false positive for each test)
– No Correction
Page 73
Multiple Testing Correction の例
以下の通り変数を定義します。
• N = MTCを行う前にANOVAを通過したピーク数
• Pi = MTCを行わない、ピークiのp-value
• = ユーザーが設定したp-cutoff値
• Pposti = MTCを行った後の、ピークiの p-value
計算を行うために、以下の値を代入します。
• N = 100
• = 0.05
Page 74
Family-wise Error Rate MTC: Bonferroni
FWER = 0.05で100個の化合物ピークを検定した時に • P1 = 0.0002 • P2 = 0.0004 • P3 = 0.0006 ….. P100
という値であったとすると、
• Ppost
1 = (0.0002)*(100) = 0.02 • P
post
2 = (0.0004)*(100) = 0.04 • P
post
3 = (0.0006)*(100) = 0.06
となります。結果としては
• 0.02 < 0.05 化合物強度に 有意差があると認められる • 0.04 < 0.05 化合物強度に有意差があると認められる • 0.06 > 0.05 化合物強度に有意差があるとは認められない
複数回繰り返された検定全体において帰無仮説が棄却される可能性を、family-wise error rateと呼びます。
Page 75
Family-wise error rate MTCの問題点と解決方法
Family-wise error rateの調整は、「何回検定を繰り返しても、全体のαレベル(family-wise error rate)は0.05を超えないようにするぞ!」という非常に保守的な方法です。したがって、本当は有意差があるのに、帰無仮説が棄却されないというType II (false
negative)の誤りが問題になります。
そこで、ある程度Type I (false positive)を許容して、Type IIを起こす可能性を小さくする方法の一つとして、false discovery rateを調整するという方法が開発されました。false discovery rateは、簡単に言うと、「棄却された全ての帰無仮説のうち、Type Iが含まれている確率」です。
Page 76
False Discovery Rate MTC: Benjamini & Hochberg
統計検定の結果(ANOVA, two-sample t-tests etc.)から得られた 100個のp-value を降順に並べます (P1>P2>…>PN)
例: P 1 = 0.0499….
P 65 = 0.0339
P 66 = 0.0333
P 67 = 0.0311 ……P100
各P-valueに、100/(その番号)を掛けたものをPpost
iとします。
Ppost
65 =(100/65)* 0.0339 = 0.0522
- > 0.05 有意差は認められない
Ppost
66 = (100/66)*0.0333 = 0.0505
- > 0.05 有意差は認められない
Ppost
67 = (100/67)*0.0311 = 0.0464
- < 0.05 有意差が認められる
よって ppost67 から ppost
100 は有意差があるとして、その中に潜在的なfalse positive のピークは5%ある。
Page 77
More false
negatives
More false
positives
多重検定方法の使い分け
> Family-wise Error Rate
• 非常に保守的で一切のFalse Positiveを許さない。
> False Discovery Rate
• MTCで検出されたピークに、p-value分のFalse Positiveが存在する。(False positive a percentage of called peaks)
> None
• 検定で用いたピークに、p-value分の割合でFalse Positiveが存在する。(False positive a percentage of peaks being tested)
Bonferonni FWER
Bonferonni Holm FWER
Benjamini Hochberg FDR
No Correction
Page 78
MPPの統計
Post Hoc Tests
Page 79
なぜ、post-hoc testが必要なのか? (1)
One-way ANOVA model
• 帰無仮説: グループ間の平均値に有意差はない、と仮定。
• H0: µ1= µ2= µ3= µ4= µ5
• ここでもし H0が棄却されても、何が棄却されたか、といった情報は得られません。
どの条件で棄却されたかを知るにはどうしたらいいでしょうか?
ここでは、1つの化合物ピークで5つの条件を仮定します。
Page 80
なぜ、post-hoc testが必要なのか? (2)
可能な解決策:
各条件の組み合わせで、2群のt-testを実施する。
H0: µ1= µ2= µ3= µ4= µ5
• この場合、5つの条件があるため、全部で10通りの組み合わせの検定を行う必要がある。
• 複数回の検定→false positive の増加
その他の解決策: post-hoc testの実施
• false positiveを減らすことができる。
Page 81
Post-hoc Test
MPP post-hoc testオプション: • Tukey’s Honestly Significant Difference (HSD) test • Student-Newman-Keuls (SNK) test
Tukey’s と SNK の検定はいずれも正規化されて等しい分散であると仮定して実施されます。 • One-way testで有意差があると認められた化合物ピークだけがPost-hoc testにかけられます。
• Post-hoc testは、正規化されて等しい分散であるという過程で選んだOne-way testで行った場合に、妥当な結果が得られる。
有意差があると認められた化合物ピークについて、各条件のピークアバンダンスの平均を、ペアで比較していきます。 Tukey の方がSNKよりもconservativeな結果になります。 Post-hoc testsはMPPのOne-way testで行うことができます。
Page 82
Post-hoc Tukey Test
ANOVAで有意差が認められた化合物ピークXの5つの条件について、以下の帰無仮説を立てます。
H0: µ1= µ2= µ3= µ4= µ5
ここで、各条件での化合物ピークのアバンダンス平均を以下の通りとします。
X1 = 32.1 X2 = 40.2 X3 = 41.1 X4 = 44.1 X5 = 58.3
それぞれのpairwise q to critical value q (for group)を計算し比較します。
– 5 vs. 1: significant (reject H0: µ5= µ1)
– 5 vs. 2: significant
– 5 vs. 3: significant
– 5 vs. 4: significant
– 4 vs. 1: significant
– 4 vs. 2: not significant (does not reject H0: µ4= µ2)
– 4 vs. 3: not necessary
– 3 vs. 1: significant
– 3 vs. 2: not necessary
– 2 vs. 1: significant
Final results: 32.1 40.2 41.1 44.1 58.3
or µ1≠ µ2= µ3= µ4 ≠ µ5
Page 83
Post-hoc Group サマリー結果
Boxをクリックした後にUnionまたはIntersectionいずれかをクリックすると、ボックスに含まれる化合物ピークのEntityリストを作成する
ことができます。
青いBoxは2つの条件で
有意差が認められた化合物ピークの数になります。
オレンジ色のBoxは2つの条
件で有意差が認められなかった化合物ピークの数になります。
Page 84
統計解析
N-way ANOVA
Page 85
2-way ANOVA
2変数の効果を確認するための検定
(Tests for effects of two parameters)
• 各サンプルは2つのパラメータから得られた値を持つ。 (例:Treatment type and
Time)
• 化合物ピークの変動は”Treatment type”、”Time”、両者の相互作用によるもの??
各化合物ピークについて、3つの p-values が計算されます。 • Generate p-value for effect of treatment
• Generate p-value for effect of time
• Generate p-value for effect of interaction between treatment and time (change in expression influenced by both parameters)
Page 86
2-way ANOVA Design
T I M E
0 wks 2 wks 6 wks
n=3
n=3 n=3 n=3
n=3 n=3
Page 87
Acceptable Designs for Analysis in MPP (必要なサンプル数)
バランスが取れていないDesign: 条件によりサンプル数がバラバラ
All three p-values calculated
繰り返しのないDesign: 各条件とも1サンプルしかデータが得られていない
Interaction p-values will not be calculated
No Drug Drug A Drug B
Time 0 1 1 1
Time 1 1 1 1
Time 2 1 1 1
Time 3 1 1 1
No Drug Drug A Drug B
Time 0 5 5 5
Time 1 5 5 5
Time 2 5 5 5
Time 3 5 5 5
No Drug Drug A Drug B
Time 0 3 4 2
Time 1 7 8 4
Time 2 9 11 5
Time 3 6 8 4
No Drug Drug A Drug B
Time 0 7 7 0
Time 1 7 8 4
Time 2 9 11 5
Time 3 6 8 4
サンプル数が0の条件がある。: Test will not be
performed
バランスの取れたDesign: 各条件で5回ずつサンプルされている。
All three p-values calculated
Page 88
2-way Test Results
Venn図で、必要な条件を
満たす部分をクリックして、その条件を満たす化合物ピークをEntity Listとして保存できます。
Page 89
3-way ANOVA
3変数の効果を確認するための検定
• 各サンプルは3つのパラメータから得られた値を持つ。 (例:Treatment type,
Time and Gender)
• 化合物ピークの変動は1) treatment types, 2) different time points, 3)
different gender, 4) interaction of treatment-time, 5) interaction of
treatment-gender, 6) interaction of time-gender 7) or the interaction
between treatment-time-genderのどれによって引き起こされているか?
各化合物ピークについて、 上記の7 つのそれぞれのp-valuesが計算されます。
Page 90
3-way ANOVA Results
各化合物ピークで, 7つの p-values が計算されます。
7 つのEntity Listsが作成され、各条件・相互作用のp-valueがそれぞれ含まれています。
• Empty lists will not be saved
Page 91
Fold Change
Fold changeは2つの条件における化合物ピークの強度レベルを比較して違いを判別する測定基準です。
ユーザーは”2倍(2-fold)”といったような閾値を設定することができます。
Fold Changeでは、それぞれの化合物ピークに対して、条件1のアバンダンス平均に対する、条件2のアバンダンス平均の比で表わされます。
化合物ピークのピークが2つの条件で増えたか減ったかを表示することができます。
Page 92
Page 93
Fold Changeによるentityの絞り込み
Next
Next
Next
Fold Changeにより、entityが絞り込まれました。
Fold Changeパラメーターはデフォルトで2.0になっていますが、
この数値を大きくすると、より化合物数が絞られます。
スライダーではきりのいい値になりませんので(3.0ではなく
3.019などとなる)、値をキー入力し、Enterキーを押すことで
フィルター値が反映されます。
3群比較で、A対B、B対C、C対Aにおいて
強度比が一定数以上変化しているentityを
残します。チェックボックスは全て入れてください。
Page 94
2群間比較をScatter Plotで表示する
Tea 1に特徴的
Tea 2に特徴的
Scatter Plotは2群間の比較しか出来ませんが、
シンプルで理解しやすい表示方法です。
X軸、y軸はそれぞれサンプル群の中から選択し、
プロット画面右下方向のものほどx軸群に特徴的、
プロット画面左上方向のものほどy軸群に特徴的な
成分であることを示しています。
右クリックで”zoom mode”を選択し、マウスをドラッグ
させれば選択した領域の拡大を行うことができます。
初期設定では”Selection Mode”になっているため、
マウスをドラッグさせるとEntityの選択を行うことができ
ます。
選択したEntityは、”Create entity list from selection”
(②)から、別リストにまとめることが可能です。
②
Volcano Plot(1/3)
Page 95
Next >>
Next >>
比較する2つのConditionを指定します
Volcano Plot(2/3)
Page 96
Next >>
結果の表示(Volcano Plot)
サンプル群2に多い サンプル群1に多い
P-v
alu
e
(上ほど小さい
=有意差がある
)
Cut-off値を調整できます Volcano Plotは、t検定とFold Changeを同時に
行えるので二群比較に便利な機能です。
三群以上の比較には使用することが出来ません。
Volcano Plot(3/3)
Page 97
クラスター分析とは?
クラスターは「似たグループ」を集めて視覚化する統計解析の手法です。
クラスター間の距離(類似度)を樹形図(ツリー)
で表したものを「デンドログラム」と呼びます。
ツリーの高さが各クラスタ間の距離となり、
このようなクラスターを
「階層型クラスタリング」といいます。
A
B
C
D C A D B
Page 98
Clustering
Clustering は“教師なしの分類”の方法と呼ばれており、データセットのパターンを表示する方法です。
Clustering は、化合物ピークを類似度の高いグループに分けます。
“entity-level”の clusteringから、同じクラスタに属する化合物ピークは何らかの関連があると推察することができます。
“sample level”の clusteringから、サンプルレベルのQuality
Controlが行え、異なる条件で違いを示す化合物ピークを見つけることができます。
Page 99
High Low
グループ A B C D
④特定のグループの特徴的なコンポネントが一まとまり(クラスター)に表示されます。
階層型クラスタツリーの例: 似たコンポーネントを集める
①クラスタツリー中の1つ1
つのマスが、各データファイルに含まれるコンポーネント(化合物ピーク)を表します。コンポーネントのアバンダンス(強度)は色で表示されています。
②似た変動を示すコンポーネント同士を近くに配置して、ツリー(線)でつないでいます。ツリーの高さが、コンポーネントの類似度を表しています。
横方向は
コンポーネント
(化合物ピーク)
③似た変動パターンを示すデータファイル(サンプル)同士を近くに配置して、ツリー(線)でつないでいます。ツリーの高さが、サンプルの類似度を表しています。
縦方向はデータファイル(サンプル)
Page 100
クラスタの作成で考慮する点
1) 何をクラスタで一緒にまとめたいか?
2) どの“類似度”を選択するか?
3) どのクラスタアルゴリズムで計算するか?
Page 101
階層型クラスタリングの長所と短所
長所:
• 全ての関連性ツリーが構築されるため、K-meansや自己組織化マップ(SOM)、PCAに基づいたクラスタリング手法よりも詳細な情報が得られます。
短所:
• 類似度指標の算出法によっては、解析初期段階の小さな誤差が大きな差として出力される恐れがあります。
• クラスター毎のentity listを直接出力できない為、ツリーからマニュアルで出力する必要があります。
Page 102
K-meansクラスタリングの長所と短所
長所:
• 計算速度が最も速いクラスタリング手法で、メモリ使用量も最小で済みます。
短所:
• クラスターの数が適切でないと、正しく分類されない可能性があります。
• クラスター間の関連性、及び同一クラスター内の化合物間の関連性について情報が得られません。
Page 103
クラスタを作成するために、どのような類似度を選択するか
類似度の指標はEntityやConditionの近さを数学的に計算して算出されます。指標は類似度の計算式によって異なります。(同じサンプルでも) 全体のトレンドを強調する指標もあれば、大きさを強調する指標もあります。
類似度の指標は以下の組み合わせの類似度の度合によって割り当てられます。 Entityの変動プロファイルの組み合わせ
Sample/Conditionの変動プロファイルの組み合わせ
Page 104
MPPで使用できる類似度の指標
それぞれの類似度は以下の2
種類のいずれかの値を持ち、類似度を数値化します。
• 距離 (0 から無限大)
• 相関 (-1 to 1)
MPPで使用できる類似度(Similarity)
Euclidian
Squared Euclidian
Manhattan
Chebyshev
Differential
Pearson Absolute
Pearson Centered
Pearson Uncentered
Page 105
類似度
類似度の指標は適切なものを選択する必要があります
例
• カテゴリデータへEuclidian距離を当てはめるのは適切ではない。
• 高度に歪んだ分布に対して相関の類似度を当てはめると、誤った結果をもたらすことがある。
Page 106
クラスタ分析(1/6)
Page 107
k-Means:あらかじめクラスタ数(k)を指定して、Entity を分類します。
Hierarchical:階層型クラスタツリーを作成します。
Self Organization Map:自己組織マップでEntity を分類します。
クラスタ分析(2/6)
Page 108
Finish
クラスタ分析(3/6)
Page 109
サイズ調整します
次々ページで説明
サイズ調整します
110
クラスタ分析(4/6)
選んだ部分が拡大されます
クラスタ分析(5/6)
Page 111
Propertiesを選択します
Entity clusters color thresholdを
調整して、大まかなクラスターに
色分けされていることを確認します。
次に、Create Classificationで
クラスター数を確認し、OK押します。
クラスタ分析(6/6)
Page 112
ダブルクリックすると
各クラスタに分類された
結果が表示されます
Page 113
クラスター分析結果の画面上で
右クリックし、“Properties”を
選択してください。
Row HeadersをCompoundに
設定すると、分析結果の右側に
化合物情報が表示されます。
Color Rangeを設定する
ことで、強度比の色を変える
ことが出来ます。
Renderingタブ中のRow Header
Widthをスライドさせることで、
表示させる化合物情報の幅を
設定することが出来ます。
表示色やレイアウトを変更したいのですが、、、
Entity Listの作成 データファイルの
読み込み
ピークアライメント
(Entityの作成)
Entityのフィルター
(ノイズ除去)
グループ定義
データの準備
PCA(主成分分析)
階層型クラスタ分析 統計的有意差によるEntity 抽出
t-検定、ANOVA解析
分けて見つける
IDBrowser
(化合物の推定) Class Prediction
(判別分析)
推定する
Entity Listの出力 ChemStation, MassHunter
での解析
詳細のクロマトグラム・マススペクトルを解析する
ChemStation, MassHunter
でデータを取る。
実験計画を検討する。
目的、仮説など。
条件を満たすEntityを探す
(Venn図)
Page 114
ID Browserによる化合物推定
MPPでライブラリサーチを行う機能です。(Mass Hunterも同じ機能を有しています)
Entityのマススペクトル
ライブラリのマススペクトル
Entityとライブラリのマススペクトルの同時表示
化学構造式
(データベースインストール時のみ使
用可能)
検索結果
Page 115
効率よくentity (=compound)をIDするには、、、
ID Browserは、現在開いているentity listの
全entityをMETLIN+組成式計算でIDします。
Entity数が数十であれば計算時間は10秒程度で
済みますが、左図の様に100-1000以上のentityとなると
化合物を1つIDする度に全entityを読み込ませて
いては、解析が非効率なものとなります。
そこで、マウスをドラッグさせて興味のある
化合物のみを選択し(緑色に変わります)、
Create entity listのアイコンをクリックすることで
ID Browserに持ち込む化合物を絞ることが
効率の良い解析のコツになります。
この化合物のみIDしたい
Page 116
Next Finish
ID Browserの設定
デフォルトの設定では
1) DBはMETLINで5ppm以内の
精度で保持時間を加味せず質量のみで検索
2) 組成式は右図の構成元素で計算
となっております。
DB検索結果と組成式結果が違うということを
避けるために、DBのToreranceは
2ppm程度にした方が良いでしょう。
Page 117
ID Browserの実行結果
DB検索、及び組成式計算が終了すると、Compound Listが表示されます。
ここには組成式、CAS番号、化合物名などが表示されます。
また、このCompound ListはMassHunter Qual.のものと同じもので、
Cefファイルの中には化合物名、組成式、CAS番号などの情報が含まれています。
よって、MassHunter Qual.上からFind by Molecular Feature、Find by Formula等の機能を
使用してCompound Listを作成した後、Identify compounds > Search DatabaseやGenerate Formula
を行い、Compound Listに名前や組成式を付けた状態でFile > Export > as cef を実行して
MPPの標準形式である.cefファイルを作成すると、
MPPのEntityに保持時間、質量だけでなく名前やID情報もannotationとして付いてくるので
entityの絞込みが楽になります。
後述するPathway解析は、CAS番号を基に代謝マップに当てはめていくので、DBにCAS番号が含まれていない場合は
Manual Identification機能を使い、CAS番号を入力します。(次ページ参照)
Page 118
Manual Identificationの実行
Page 119
ID Browser上でCompoundを選び、右クリックをすると
Add/Edit Manual Identification が選択できます。
ここで現れるウィンドウでCAS IDを指定すると
その番号がCompound Listに張り付くので、
Save and Returnを実行すれば、
マニュアルでIDした結果をパスウェイ解析に
持ち込むことができます。
Page 120
Class Prediction (判別分析)
sample class prediction
model作成のためには
再現性の良いEntityを選ぶ
ことが重要です
Page 121
Class Prediction (判別分析1/8)
Page 122
Class Prediction (判別分析1/8)
Page 123
Class Prediction (判別分析2/8)
アルゴリズムを選択して
Nextをクリックします
Page 124
Class Prediction (判別分析3/8)
Page 125
Class Prediction (判別分析4/8)
Page 126
Class Prediction (判別分析5/8)
判別したい未知サンプルを
選択します
Page 127
Class Prediction (判別分析5/8)
Page 128
Class Prediction (判別分析6/8)
Page 129
Class Prediction (判別分析7/8)
Page 130
Class Prediction (判別分析8/8)
Page 131
Class Prediction (判別分析)
Page 132
Class Prediction (判別分析)
判別モデルを選択します
例:Naïve Bayes
Page 133
Class Prediction (判別分析)
判別したい未知サンプルを
選択します
Page 134
Class Prediction (判別分析)
Page 135
Class Prediction (判別分析)
Page 136
Class Prediction (判別分析)
判別モデルのアルゴリズム (1)
-Decision Tree (決定木)-
Entity Sample 1 Sample 2 Sample 3
Entity1 [email protected] 2200 1000 2500
Entity2 [email protected] 1800 1500 2900
Entity 1
>2000?
Entity 2
>2000? Sample 2
Sample 3 Sample 1
No
Yes No
Yes
Page 137
判別モデルのアルゴリズム (2)
-Support Vector Machine (サポートベクターマシン, SVM)-
Condition 1
Condition 2
Condition 3
サポートベクターマシンは各点からのマージンを最大化する
超平面(separation plane)を学習する方法です。
Page 138
判別モデルのアルゴリズム (3)
-Naïve Bayes (単純ベイズ)-
ベイズ分類器は連続した値(イオン強度など)、カテゴリー値(アンケートの1.悪い~5.良い)の
両方を扱うことが可能で、複数のクラスに分類することができるアルゴリズムです。
この判別アルゴリズムはサンプルが各クラスに属する確率を予測します。
ベイズ分類器モデルは各化合物に対する既知データの分布関数に基づいて構築され、
学習した確率密度関数に基づいてデータポイントを分類します。
Entity 1
Entity 2
Entity 3
分布関数
Condition 1
Condition 2
Condition 3
入力
(各化合物の強度) 出力
(予測クラス = 最大確率を持つcondition)
確率
Max
probability?
Page 139
判別モデルのアルゴリズム (4)
-Neural Network (ニューラルネットワーク)-
Entity 2
Entity 3
Entity 4
Entity 5
Entity 1
Condition 1
Condition 2
Condition 3
入力
(各化合物の強度) 出力
(予測クラス = 最大スコアを持つcondition)
Max
score?
Neurons
Page 140
判別モデルのアルゴリズム (5)
-Partial Least Square Discrimination (PLS回帰分析)-
PLS回帰分析のゴールは、化合物強度からクラスを予測することです。
PLS回帰分析は化合物とクラスを直交成分と各化合物毎のローディングとして分解します。
Entity 2
Entity 3
Entity 4
Entity 5
Entity 1
ローディング
(重み)
Condition 1
Condition 2
Condition 3
入力
(各化合物の強度) 出力
(予測クラス = 最大スコアを持つcondition)
スコア
Max
score?
Page 141
Entity Listの作成 データファイルの
読み込み
ピークアライメント
(Entityの作成)
Entityのフィルター
(ノイズ除去)
グループ定義
データの準備
PCA(主成分分析)
階層型クラスタ分析 統計的有意差によるEntity 抽出
t-検定、ANOVA解析
分けて見つける
IDBrowser
(化合物の推定) Class Prediction
(判別分析)
推定する
Entity Listの出力 ChemStation, MassHunter
での解析
詳細のクロマトグラム・マススペクトルを解析する
ChemStation, MassHunter
でデータを取る。
実験計画を検討する。
目的、仮説など。
条件を満たすEntityを探す
(Venn図)
Page 142
MassHunter上での確認
Page 143
検索や化合物の絞り込み結果が得られたら、
結果のxxx.cefを作成します。
MassHunter Qualソフトを開き、
該当データを開いた後に、
上記xxx.cefを開いて実行すると
リストされた化合物の
・マスクロマトグラム
・マススペクトル
が表示されます。
化合物抽出条件
これらの条件に基づいて
・マスクロマトグラム
・マススペクトル
を抽出します。
144
便利な機能
Page 145
Page 146
便利な機能1:Create Entity List
興味あるEntityを選択します。
右クリックしてZoom Modeも使えます。
選択した5 Entities Listが
作成されました
選択されたEntityのEntity Listを作成
Page 147
便利な機能2:Find Similar Entities
CompoundやMassのタイトルクリックしてソートし
例:Caffeineを選択します
Page 148
便利な機能2:Find Similar Entities
Minimum, Maximumを調整して、
似た挙動のEntitiesを選択します
Page 149
便利な機能2:Find Similar Entities
Caffeineと似た挙動の
16 Entitiesが抽出されました
Page 150
解析結果をExcelに出力する場合は、Data Spreadsheetを選択し、
右クリックからSelect All Sheetを選び、コピーします。強度はlog表記されて
いますので、1.0は検出されなかった、データ抽出されなかったことを示しています。
便利な機能3: Data Spreadsheet
Page 151
便利な機能4:ディレクトリとバックアップ Mass Profiler Professionalでは、.docや.xlsファイルの様にwindows上でexperimentを削除する
ことはできません。(厳密にはC:\Program Files\Agilent\MassHunter\Workstaion\MassProfilerPro\app\Data\files\gxuserに
Experimentは保存されてはいますが、名前から判断できないファイル名になっています。) Experimentの削除はMass Profiler Professional上から行なってください。
また、experimentを保存し、後日別のPCで解析を行なう場合やバックアップには、
Project→Export Projectから、.tarファイルとして保存してください。
便利な機能5:Venn図
Page 152
最大4Entityリストから
集合の考え方で
絞込みできます
Venn図を表示する
便利な機能6:MPPのインストール方法
Page 153
Use proxyのチェックボックスは
記入せず、proxyも空欄のまま
Order IDを入力し、OKを押します。
便利な機能7-1: Filter On Parameters
Page 154
事前にExperiment Groupingで
Parameter typeがNumericの
パラメーターを作成します。
仮に、ブルーマウンテンの活性を1とした場合、キリマンジャロが2、モカが3として、その活性と相関する
Entytyを探す例とします。
便利な機能7-2: Filter On Parameters
Page 155
AnalysisからFilter on parameterを選択します。
Entity List、Interpretation、相関を探したいParameter、Similarity Metricを選択します。
ピアソン相関係数は線形の相関解析なので、非線形の相関を解析したい場合はスピアマン順位相関係数を
使用します。
便利な機能7-3: Filter On Parameters
Page 156
Cutoff値のレンジは1に近いと相関、
0で相関なし、-1に近いと逆相関です。
Nextボタンで次に進み、名前を確認してFinishボタンで
Entity Listを保存します。