MPP easy guideVolcano Plot Fold Changeとt-検定を時に行います。主成分分析(PCA)...

Mass Profiler Professional

簡易マニュアル

マニュアル作成環境：（旧版を下記で改定）・Mass Profiler Professional B12.5

Build 179640

・MassHunter Qualitative Analysis

B.05.00 SP1

Page 1

Mass Profiler Professionalの主な機能

Page 2

機能特徴

Fold Change グループ間の平均で閾値以上のコンポーネントを抽出します。

t-検定（2群）、ANOVA（3群以上）

グループ間で平均値とばらつきから、グループ間で変動があると判断されるコンポーネントを抽出します。

Volcano Plot Fold Changeとt-検定を同時に行います。

主成分分析(PCA) サンプル全体の大まかな傾向を視覚化します。

多変数（コンポーネント）を集約し、各データファイル（サンプル）の総合得点（スコア）を算出して、表示します。

各コンポーネントの係数（ローディング）とスコアの関係から、コンポーネントの考察を行うことができます。

クラスタ分析似た変動のコンポーネントを集めて視覚化します。

Class Prediction

(判別予測、判別分析) グループ間の違いを表すコンポーネントと分類の基準値（コンポーネントのアバンダンス）を探し出し、サンプルをグループで分類します。分類後にコンポーネントと基準値が妥当かどうかの確認を行います。

Pathway分析

(オプション) バイオマーカー探索で主に用いられる機能。コンポーネントのライブラリサーチ結果から化合物の代謝経路などを推定し、Pathway

と呼ばれる化合物の反応経路の地図に落とし込む機能です。

MassHunterとMPP用いた解析の流れ

Page 3

MassHunter ・MSやRTの再現性良好なデータ

・xxx.d ⇒ xxx.cef変換

MPP MassHunter ※必須：マスクロマトグラムと

マススペクトルで確認

・データベースサーチや

組成式計算等

cef cef

③候補検出後確認

・Export for

Recursionで

化合物リスト作成・ID Browserで

化合物検索

①Experiment作成強度正規化条件選択

1. None

2. Z-Transform

3. Baseline to (median/

mean) of (all/control)

samples 定型Wizard

Data Import Wizard

Class Prediction: Build and Test Model

Analysis: Significance Testing and Fold Change

②Analysis (差異の検出)

・Volcano Plot

・Clustering

・PCA

etc

任意Workflow

CEFファイル作成方法概要 (Agilent MassHunterユーザーのみ）

①該当データ上で右クリックします。

②Export as CEFを選択します。

③データ保存先等設定します。

④OKをクリックします。

処理するデータファイル数と Compounds数によっては処理に長時間かかります。

Page 4

※Molecular Feature Extractor詳細はMassHunterガイドブックに記載されています

MPPソフトの概念と用語１

Page 5

Project ユーザーがデータを格納するワークスペースです。MPPを複数人で共有する場合など各個人でプロジェクトを作ると、閲覧権限等は設定できませんが、データを分けることができます。用途の異なるデータは混乱を招くため異なるプロジェクトにしたほうが無難です。

Experiment エクスペリメントはデータの解析単位になります。シグナルデータのインポートを行うとエクスペリメントが1つできます。ノーマライズはエクスペリメント単位で決定され変更することはできません。

Sample GC/MSやLC/MSのデータです。データファイル名がSample名になります。

Entity LC/MSの場合は、MFEで抽出されたFeatureです。サンプルごとの強度変動情報が含まれます。

Project A

・・・

Experiment 1

Sample （データファイルセット）

Condition （サンプルのグループ化情報）

Entity List

（クロマトグラムピークリスト）

Object

（クラスタツリー、判別モデル等）

Experiment 2

Sample （データファイルセット）

Condition （サンプルのグループ化情報）

Entity List

（クロマトグラムピークリスト）

Object

（クラスタツリー、判別モデル等）

※Experimentは他のProjectへコピーすることもできます。

拡大

1つ1つが

RT,分子量,強度

情報を持つデータ

= Entity = Feature

LC/MS注入

1回分のデータ = Sample

Experiment

A B C D E F

例：ｺｰﾋｰ豆種類= Parameter

A, B, C, etc. = Condition

MPPソフトの概念と用語２

Page 6

Interpretations（グループ定義）

Analysis（Entity List及び解析結果のオブジェクト）

Interpretations Interpretationは、MPPで読み込んだSample(データファイル)をグループ化して表示させる方法です。

Interpretationの元になるのはParameterです。

1つのSampleに複数のParameterが設定されている場合に、どのParameterでグループ化して表示し、クラスタ分析やt-検定、PCAなどを行うかを決めます｡

Analysis 該当するSample(データファイル)を選択したInterpretationで解析した結果です。

プロジェクトを閉じる

Experiment

を作成する

既にあるExperimentをProjectに追加する

選択されたEntityのEntity Listを作成する

選択されたEntity List

のInspectorを表示する

CSVなどで作成したファイルをEntity ListとしてImportする

散布図を表示する

Profile Plotを表示する

ヒストグラムを表示する

マトリクスプロットを表示する

Venn図を表示する

箱髭図を表示する

ヒートマップを表示する

スプレッドシートを表示する

（Normal/Raw Abundance

で選択可能)

各サンプルの統計情報を表示する

新しいPathway

を作成する

MPP用語集①

Page 7

MPPの用語意味

Alignment (アライメント)

アライメントは英語の「位置合わせ」の意味で、MPPではEntityを作成する際に行われます。 LC/MSやGC/MSのデータを読み込む際、複数のSample（データファイル）からそれぞれの化合物ピークの強度を1つのピーク情報としてまとめる必要があります。ただ、LC/MSもGC/MSも、測定毎に多少リテンションタイムやMSのm/zがずれることがあります。アライメントは、このような測定誤差を考慮して、リテンションタイムやm/zの許容誤差を設定します。 MPPへ読み込まれた複数のデータファイルのピークリスト（CEFファイルやELUファイル）に含まれるピークの情報（リテンションタイム、m/z、ピーク強度)から、アライメントの許容誤差範囲内のピーク同士をまとめて、1つのEntityとします。許容誤差から外れたピークは、別のEntityとしてMPPで扱われます。

Condition 設定されたパラメータ内にある各条件です。Parameterが経時変化なら、『1時間、2時間、3時間』がCondition、Parameterが製造場所なら、『A工場、B工場、C工場』がConditionに相当します。MPP用語集のParameterも参照。

Entity EntityはMPPのデータの取り扱い単位の一つで、GC/MSやLC/MSのデータに含まれる化合物ピークのことを指します。 Entityには、化合物ピークのリテンションタイム、モデルイオン(m/z)、各サンプルのピーク強度が含まれます。

Hierarchical Cluster (階層型クラスタ)分析

階層型クラスタツリーは、データファイル間の距離を測り、距離の近いもの同士をまとめてクラスタとしてまとめていく手法です。以下の手順で計算されます。 1．データファイル間の距離(MPPではピーク強度の変動パターンの類似度)を全て測定する。 2．距離の近いデータ同士をそれぞれまとめてクラスタを作る。 3．それぞれのクラスタの位置(重心など)を計算する。 4．クラスタ同士の位置を測定し、近いものをクラスタとしてまとめる。 5．新しくできたクラスタの位置を計算する。 6．4→5を、1つのクラスタになるまで繰り返す。階層型クラスタは、計算が煩雑であるものの、k-means法のような「予めいくつのクラスタに分ける」ことが不要なため、適用範囲が広い手法と言えます。階層型クラスタでは、データやクラスタ間の距離を「デンドログラム」というツリーで表します。デンドログラムの距離が離れているクラスタやデータ同士は、類似度が低くなります。階層型クラスタ分析では、クラスタの位置や、クラスタ間の距離をどのように定義するかで、結果が異なることがあります。例えば、距離の位置の定義を｢クラスタ間の最短距離」とするか、｢最長距離｣とするかで、クラスタ間の違いを過小・過大評価することになります。また、距離の測定方法もMPPではいくつかの手法が提供されており、デンドログラムのクラスタ間の距離に影響を与えます。

MPP用語集②

Page 8

MPPの用語意味

Indentified

LC/MS(TOF,Q-TOF)やGC/MSDのデータをMPPに読み込む際に、「化合物名が(ライブラリサーチなどで)推定された」ピークリストをのことを「Identified」なピークリストといいます。また、GC/QQQ、LC/QQQのMRMデータ、GC/MSDのスクリーナー結果も「Identified」の形式でMPPに読み込まれます。

Interpretation

Interpretationは、MPPで読み込んだSample(データファイル)をグループ化して表示させる方法です。 Interpretationの元になるのは「Parameter（HelpファイルにはConditionとも表記されることあり)」です。 1つのSampleに複数のParameterが設定されている場合に、どのParameterでグループ化して表示し、クラスタ分析やt-検定、PCAなどを行うかを決めます｡また、1つのParameterで複数回測定したデータ(レプリケイト；再現性などの確認のために取られたデータ)の強度を平均化するかどうかも、設定することができます。

k-means

k-meansクラスタ方は、古くから行われているクラスタ分析法で、データをあらかじめ「k個」のクラスタに分けることを決めてから、実際にデータを整理していく手法のことです。例えば、あるデータの散布図上にある測定データを「4個」に分類する、と決めてクラスタ分析を行う場合、4k-means法といいます。実際の計算は、以下のとおりです。 1．散布図上にランダムに4点のポイントを置く。 2．データファイルと4点のポイントとの距離を測り、データファイルを一番近いポイントとして分類する。(データファイルは4つのクラスタに分類される) 3．各クラスタの重心を計算する。(4つの重心が求まる) 4．3で求めた重心と、各データとの距離を測り、データファイルを一番近いポイントとして分類する。(データファイルは4つのクラスタに分類される) 5．上記3→4を、重心が移動しなくなるまで繰り返す。 k-means法は計算もそれほど煩雑でないため古くから行われていた手法ですが、最初のクラスタ数（kの値）をどのように決めるかで結果が異なるため、kの値が既知の実験でないと妥当性のある結果が得られない、と言われております。そのため、MPPのクラスタ分析は、k-means法よりもHierarchical Cluster (階層型クラスタ)をまず行い、その結果から妥当なkの数を見つけてk-means法でEntityを分類するワークフローが提案されています。

Parameter Parameterは実験条件のことで、データを測定した条件のことを指します。 1時間、2時間、3時間がConditionなら、『経時変化』がParameter、A工場、B工場、C工場がConditionなら、『製造場所』がParameterに相当します。Conditionをまとめる概念です。

Unidentified

Unidentifiedは、MPPにLC/MS(TOF,Q-TOF)やGC/MSDのデータファイルを読み込む際に、「化合物名が(ライブラリサーチなどで)推定されていない」ピークリストをのことをいいます。 Unidentifiedで読み込まれたEntityのCompound Nameは「m/z＠RT」の形式で名前が付けられます。 GC/MSDのAMDISの場合は、ELUファイルをUnidentifiedファイルとして読み込みますが、AMDISのIdentifiedのピークリストであるFINファイルに含まれるピークは、ELUファイルにも含まれます。

Mass Profiler Pro. (MPP)のワークフロー、、、その前に

Entity Listの作成データファイルの

読み込み

ピークアライメント

（Entityの作成）

Entityのフィルター

（ノイズ除去）

グループ定義

データの準備

PCA（主成分分析）

階層型クラスタ分析統計的有意差によるEntity 抽出

t-検定、ANOVA解析

分けて見つける

IDBrowser

（化合物の推定） Class Prediction

（判別分析）

推定する

Entity Listの出力 ChemStation, MassHunter

での解析

詳細のクロマトグラム・マススペクトルを解析する

ChemStation, MassHunter

でデータを取る。

実験計画を検討する。

目的、仮説など。

条件を満たすEntityを探す

（Venn図）

Page 9

Page 10

MPPによる解析に持ち込むまでの

Agilentプラットフォームのデータ処理概略

分析装置

SQ

or

QQQ

ChemStation

AMDIS

(.elu)

Target analysis

TOF, QTOF

or

QQQ

Target analysis

or

Non-target analysis target

analysis

MFE

(.cef) Find by Formula

(.cef)

LC/MS GC/MS

TOF,

QTOF QQQ SQ QQQ

Non-

target Target

Quant Report

(.xml) Quant

Report

(.xml)

“Unidentified” or

“Combined” experiment “Identified” experiment “Unidentified” or

“Combined” experiment

“Identified”

experiment

Target analysis

or

Non-target analysis

Quant Report

(.xml)

“Identified”

experiment

Target

Non-

target

Target analysis

ICP-MS

Quant

Report

(.xls, .csv)

“Identified”

experiment

Mass Profiler Pro. (MPP)のワークフロー


読み込み





グループ定義

データの準備





IDBrowser


（判別分析）

推定する


での解析







（Venn図）

Page 11

Page 12

Analysis Workflow（Baselining Option設定後に起動）

Summary Report Experiment Grouping

(Interpretationも作成) Filter Flags

Filter By Frequency QC on samples

(表示のみ)

Significance Analysis/Fold Change

ID Browser Identification Finish!!

Page 13

Workflow（Baselining Option設定後）メニュー一覧

主に上から順に

設定します

Page 14

MPP起動

Projectはexperimentの上位構造です。

（例：project名 metabolites

Experiment名 LCMS_positive, negative,

GCMS_positive, negaive など)

Page 15

ProjectとExperiment作成(1/2)

project

Experiment 1 Experiment 2

…

Page 16

ProjectとExperiment作成(2/2)

同定、未同定混合の場合は

“Combined”

MRMデータ等、全化合物が同定されている場合は“Identified”

化合物が全く同定されていない場合は“Unidentified”

※重要：正しく選択してください

まずはMPP、オプションがある場合は

Pathwayも選択可

Data Import：データ取り込み

Analysis：限定された解析の流れ

Class Prediction：判別分析この画面は合成してあります

Page 17

Data Import Wizardの流れ：

MS Experiment Creation Wizard (1/11)

TOF LC/MSデータ

Pathway解析(page 155)の場合のみ

正しく選択することが必須です

Page 18


Page 19


Page 20


Sampleの表示順番を変更できます

Page 21


最終的に全てにグループ名を

付けます

Page 22


特定の保持時間領域のみでの比較や

一定のイオン強度以上の化合物のみで

比較を行いたいときに使用します。

一般には全データを使用する設定にします。

Page 23


化合物のアライメント（LC/MSの場合） RT Window= 0.1% + 0.15 min Mass Window= 5.0 ppm + 2.0 mDa

既知物質を用いて保持時間の補正を行なう場合、

Perform RT correlationをチェックし、with standardsを

選択します。

CE/MSではMT(MPP内ではRTと表示されます), m/zに

よるアラインメントを測定条件によって変化させますが、

この値を大きくすると異なる化合物を同一と誤認識する

フォールスポジティブのリスクが高くなりますので

注意が必要です。具体例は後述します。

Page 24


点の色はFrequencyを表します。再現性の悪いものは赤色で、全てのサンプルに共通して存在し、アライメントされたものは青色で表示されます。アライメント条件が厳しいと、Frequencyが低いEntityが増えます。結果を見ながら必要に応じてBackボタンで前画面に戻り、アライメント条件やFilter条件を修正します。

Page 25


既知物質を用いてイオン強度の補正をする場合に使用します。

Page 26


化合物強度の正規化を行ないます。次ページから詳しく説明しますが、サンプル間の変動の絶対値で比較したい

場合はBaseline to (median / mean) of (all / control) across samples、

サンプル間の変動の比率で比較したい場合はZ-Transformを選択してください。

化合物間のダイナミックレンジが広い、生体サンプルなどの分析にはZ-Transformを推奨します。

Page 27

0

200000

400000

600000

800000

1000000

1200000

sample A sample B sample C

compound 1

compound 2

compound 1 compound 2

sample A 0 900000

sample B 1000 1000000

sample C 1100 970000

正規化 (1) None

各正規化法による化合物強度の差をプロットする例として、

左下テーブルの様な実験データが得られたとします。

Baselining optionsでNoneを選択すると、正規化は行われません。

よって、全てraw data abundanceで比較することになるので、直観的には理解しやすいのですが、

正規化を行うと、Normalized abundance = 0は必ずしも

raw data abundance = 0を意味しなくなります。

他に存在量の多い化合物が存在すると(ここでは、compound 2)、存在量の少ない化合物の変動が

相対的に小さなものとされてしまいます。

Page 28

正規化 (2) Baseline to (median / mean) of (all / control)

across samples


sample A 0 900000

sample B 1000 1000000

sample C 1100 970000

正規化

前ページで示された化合物強度を中央値か平均値で正規化します。

下記は、各化合物の中央値との間の差に変換する場合の説明です。

(eg. Compound 1: 中央値=1000, Normalized abundance of A = 0-1000 = -1000)

中央値をNormalized abundance = 0とするため、絶対値の変動の大きい化合物が強調されますが、

化合物間で広いダイナミックレンジを持つサンプルでは、変動比率が大きくても強度変動の

絶対値が小さい化合物は全く変動していないかの様に見えてしまいます。


sample A -1000 -70000

sample B 0 30000

sample C 100 0 -80000

-60000

-40000

-20000

0

20000

40000

sample A sample B sample C compound 1

compound 2

median

Page 29

正規化 (3) Z-Transform


sample A 0 900000

sample B 1000 1000000

sample C 1100 970000

正規化

Z-Transformは強度変動の比率を考慮した正規化方法です。

Baselining optionsでZ-Transformを選択すると、各化合物強度は

前ページで求めた、各化合物の中央値との差をそれぞれの化合物強度の

標本分散で割った値に変換されます。

生体由来などの様に存在量の多い化合物、微量な化合物が混在しているサンプルでは

有効な手法ですが、Quality Controlを行い、信頼性の低い(サンプル群内の繰り返し再現性を

チェックすることで除去することが出来ます)entityを除かなければ

相対強度0.1%から1.0%に増加したノイズを10倍に変動した化合物とみなしてしまうことになります。


sample A -0.004054054 -3.98734E-05

sample B 0 1.70886E-05

sample C 0.000405405 0 -0.0045

-0.004

-0.0035

-0.003

-0.0025

-0.002

-0.0015

-0.001

-0.0005

0

0.0005

0.001

sample A sample B sample C

compound 1

compound 2

Page 30

MS Experiment Creation (正規化None)

全く同一データですが、縦軸の

正規化の違いだけで大きく見え方が

異なることに注意が必要です

Page 31

MS Experiment Creation (正規化Z-transform)

全く同一データですが、縦軸の

正規化の違いだけで大きく見え方が

異なることに注意が必要です


読み込み





グループ定義

データの準備





IDBrowser


（判別分析）

推定する


での解析







（Venn図）

Page 32

Page 33

仮にn=4で測定した場合、その4つの

ファイルが同一の群であることを

宣言しなければなりません。

群を表すパラメーターは複数設定する

ことができます。

（例：男性or女性、20代or30代or40代、、

日本人orアメリカ人or中国人）

サンプル群の定義

“Experiment Grouping”を

選択し、グループを示す

パラメーターを与えます。

p.21で設定済みの場合は不要です。

Page 34

同じパラメーターを繰り返し入力するのは面倒なのですが、どうにかなりませんか？？

指定したいサンプルをドラッグで選択後、”Assign Values”を選択すると、

一括でパラメーターを入力することができます。

Page 35

Replicateはどの様に用意したら良いのでしょうか？

また、１つのサンプル群当たりどのくらいのreplicateが必要なのでしょうか？

T I M E

0 wks 2 wks 6 wks

n=3

n=3 n=3 n=3

n=3 n=3

×3 injection

×1 injection

×1 injection

×1 injection Technical replicate

Biological replicate

Technical replicateから得られる

ことが出来るのは測定誤差のみです。

個体差を考慮することは出来ません。

また、Aを3回分析した結果を平均化

することは厳密にはサンプル群

0wks, Treated を代表していること

にはなりません。例えreplicateの数を

増やしていったとしても、それは個体A

を代表した値になります。

Biological replicateはreplicate数を増やすことで、サンプル群(例：2wks,

Treated)の真値に近づくことが出来ます。

Replicateの適正数ですが、Biological

replicateであればn=10はほしいところです。実験のコスト(時間的なコスト含め)を考えた上で設定してください。

本マニュアルで使用しているデータは

Technical replicate, n=3の実験系に

なっています。

A

B

C D

E

F

Page 36

Interpretations (Categorical, Non-averaged)

“Create Interpretation”を選択し、”Categorical”と

”Non-Averaged”では、ばらつきを評価しやすい

表示です。

Page 37

Interpretations (Categorical, Averaged)

“Create Interpretation”を選択し、”Categorical”と

”Averaged”では各Condition毎の平均表示です。

4 n x 6 group = 24 群という扱われ方だったのですが、4回測定を平均化し、 1 x 6group = 6群の比較にまとめました。

Page 38

Interpretations (Numerical, Averaged) “Create Interpretation”を選択し、”Numerical”と

”Averaged”では各Condition毎の平均表示です。

0日目 1日目 2日目 3日目 4日目 5日目

各Condition内での再現性が良好で計時変化を視覚化したい場合等に有効です。

Page 39

サンプル群の表示順を並び替えたいのですが、どうすればいいでしょうか？

Profile plot、もしくはMatrix plotの

画面上で右クリックをし、

“Properties”を選択してください。

Columnsタブ上で移動させたい

サンプル群を選択し、上下に移動

させてください。

表示順の入れ替えは、平均化の前後

どちらでも行うことが出来ます。

100% 66%

Page 40

QC: Filterを使ってEntity中から再現性の悪いデータポイントを除きます。

“Filter by Frequency”を選択し、サンプル群内でシグナルが現れる頻度によって

フィルターをかけることができます。具体的にはn=3測定中、2回以上現れるデータポイントを

採用するのであれば、この値は66.6%となります。次ページ参照。

FilterをかけることでEntity数が

絞り込まれていることを

確認してください。

Page 41

Filter by Frequencyの例

at least 100% of all samples at least 66% of samples within each condition ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ○ ● ● ● ● ● ●

at least 100% of samples in only one condition ● ● ● ● ● ○ ● ● ●

● ● ● ○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ○

○ ○ ○ ● ● ● ○ ○ ○ ● ● ○ ● ● ○ ● ● ●

● ● ○ ● ● ● ● ● ○

○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ○ ● ● ○

● ● ○ ● ● ○ ● ● ○

at least 100% of samples in at least one condition ● ● ● ○ ○ ○ ○ ○ ○

○ ○ ○ ● ● ● ○ ○ ○ at least 66% of samples in at least one condition ○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ○ ○ ○ ● ● ● ● ● ● ○ ○ ○

● ● ● ○ ○ ○ ● ● ● ● ● ● ○ ○ ○ ● ● ●

○ ○ ○ ● ● ● ● ● ● ○ ○ ○ ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ○ ○ ○ ○ ○ ○

○ ○ ○ ● ● ● ○ ○ ○

○ ○ ○ ○ ○ ○ ● ● ●

at least 66% of samples in only one condition ● ● ● ○ ○ ○ ○ ○ ○ ● ● ● ● ● ○ ● ● ○

○ ○ ○ ● ● ● ○ ○ ○ ● ● ○ ● ● ● ● ● ○

○ ○ ○ ○ ○ ○ ● ● ● ● ● ○ ● ● ○ ● ● ●

● ● ○ ○ ○ ○ ○ ○ ○ ● ● ● ● ● ● ● ● ○

● ○ ● ○ ○ ○ ○ ○ ○ （以下この組合せは省略） ● ● ● ● ● ○ ● ● ●

○ ● ● ○ ○ ○ ○ ○ ○ （以下この組合せは省略） ● ● ○ ● ● ● ● ● ●

○ ○ ○ ● ● ○ ○ ○ ○ ● ● ○ ● ● ○ ○ ○ ○

● ● ○ ○ ○ ○ ● ● ○

○ ○ ○ ○ ○ ○ ● ● ○ ○ ○ ○ ● ● ○ ● ● ○

● ● ○ ○ ○ ○ ○ ○ ○

凡例 ● ：検出される ○ ○ ○ ● ● ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ● ● ○

○ ：検出されない

Page 42

QC: Filterを使ってEntity中から再現性の悪いデータポイントを除きます。（２）

“Filter by Sample Variability”を選択し、サンプル群内のシグナル強度のCV値で

フィルターをかけることができます。

この項目は、全サンプル群中の何群で上記の再現性条件を満たしたかでEntityをフィルターする

ことを示しています。例では at least 8 out of 8 conditions となっていますので、8群全てで

CV値が30%以下である化合物を残すことを意味しています。

< 40% < 20% < 30%

6 8


読み込み





グループ定義

データの準備





IDBrowser


（判別分析）

推定する


での解析







（Venn図）

Page 43

2群比較Ｔ検定；2つのサンプル群について有意差があるかどうかを検定

Fold解析；2つのサンプル群のデータから、何倍の差があるかでフィルターをかける機能

Volcano Plot ; t検定とFold解析の結果を視覚化したもの

3群以上比較 ANOVA（分散分析） ;

3群以上のデータからの有意差があるかどうかを検定

表現方法主成分(PCA)分析；大まかな傾向を視覚化するツール

クラスタリング；差のある化合物どうしをまとめるツール

判別分析；未知試料がどの母集団に属するかを調べるツール

統計解析のためのツール

t検定 A群 B群

95%以上の確率でここに入る

Page 44 Page 44

Page 45

T検定の限界

2群間比較のみ

実験デザインが３群以上の場合、ANOVAが必須

分散 (Variance) が小さい場合、平均差が殆どなくても ”統計的に差がある”

という結果が生じてしまう

→Fold解析との組合せが有効

→ Volcano Plot (→page 95)

T検定だけでは、統計的に偽陽性を排除できない

多重検定補正が必要 (→page 71)

PRINCIPAL COMPONENTS ANALYSIS

(PCA, 主成分分析)

Page 46

3D表示 2D表示

PCA Score Plot（各サンプルの大まかな傾向を表示）

Page 47

主成分分析 (PCA)

主成分分析は、一般的に、多くの変量の値をできるだけ情報の損失なしに，1個または少数個の総合的指標(スコア)で代表させる方法です。サンプル間の違いを、LC/MSデータ

のクロマトグラムピークの情報を元にして、以下の式でスコア（得点）で表します。

サンプルのスコア（得点）＝Σ （各EntityのLoading ｘ各ピークのピーク強度）

ここで、クロマトグラム中の各ピークの重みつけであるLoadingは、サンプル間のスコア

が最もばらつくように計算された、各ピーク固有の係数です[1]。

スコアは理論上、サンプルに含まれるピークの数だけ計算できますが、PCAの目的は「少数個のスコアでサンプル間の違いを解釈する」ことですので、通常は1～3個のスコアを求めて、スコアとLoadingの解析を行います。

サンプルの違いを表す情報量を最も表しているスコアから順番に第1主成分（Component 1）、第2主成分（Component 2）・・・と呼びます。[2]

サンプルごとの各主成分のスコアを表した図が「スコアプロット」、クロマトグラムピークの各主成分のLoadingを表した図がLoading Plotになります。

[1] 詳しい計算方法は、ケモメトリクスや統計解析の書籍を参照ください。ここでは、PCAをMPPで行う際、スコアを求めるためのLoading計算は、ソフトウェアで自動的に行われることのみ、ご紹介させていただきます。 [2] この章で扱う「主成分」という言葉は”サンプル間の違い”という情報量に対する言葉です。

Page 48

PCA(主成分分析)の基本的な考え方

Page 49

試料A

試料B

試料C

ピーク① ピーク②

ピーク③

10 15 4

10 4 15

7 15 5

試料A～試料Cの特徴が分かるように、各ピークの面積を元にして試料の総合得点(スコア)を付けることを考える。

ピーク

係数

試料

①

a

②

b

③

c スコア(u)

試料A 10 15 4 10a+15b+4c

試料B 10 4 15 10a+4b+15c

試料C 7 15 5 7a+15b+5c

分散

(ばらつき) s1 s2 s3 su

すなわち、

u= ax1+bx2+cx3

となるスコアuを考える。(x1, x2, x3はピーク①～③の面積値)

uの分散suが最も大きくなるような係数a, b, cを計算することで、試料A~試料Cのスコアが最も離れて、特徴が区別できるようになります。

この計算は、MPPで自動的に計算されます。

PCAの計算結果(第1主成分)

Page 50

試料A

試料B

試料C


ピーク③

10 15 4

10 4 15

7 15 5

試料A～試料Cの各ピークの計算結果

ピーク

係数

試料

①

0.00

②

-0.63

③

0.78 スコア(u)

試料A 10 15 4 -6.30

試料B 10 4 15 9.17

試料C 7 15 5 -5.52

分散

(ばらつき) s1 s2 s3 su

スコア(u)

-6.30 9.17 -5.52

結果から分かること

1.ピーク①は試料間の違いにあまり関与しない（係数が0)

2.ピーク②は試料間の違いを表すスコアuに“負の影響”を与える

3.ピーク③は試料間の違いを表すスコアuに“正の影響”を与える

PCAの計算 (第2主成分)

Page 51

試料A

試料B

試料C


ピーク③

10 15 4

10 4 15

7 15 5

試料A～試料Cの各ピークの第2主成分の計算

ピーク

係数

試料

①

d

②

e

③

f スコア(v)

試料A 10*(1-0.00) 15*(1+0.63) 4*(1-0.78) 10d+

24.42e+0.89f

試料B 10*(1-0.00) 4*(1+0.63) 15*(1-0.78) 10d+ 6.51e+3.33f

試料C 7*(1-0.00) 15*(1+0.63) 5*(1-0.78) 10d+

24.42e+1.11f

分散

(ばらつき)

s4 s5 s6 sv

v= dx1(1-a)+ex2(1-b)+fx3(1-c)

となるスコアvを考える。(x1, x2, x3はピーク①～③の面積値)

vの分散svが最も大きくなるような係数d, e, fを計算することで、試料A~試料Cのスコアが最も離れて、特徴が区別できるようになります。

この計算は、MPPで自動的に計算されます。

PCAの計算結果(第2主成分)

Page 52

試料A

試料B

試料C


ピーク③

10 15 4

10 4 15

7 15 5

試料A～試料Cの各ピークの計算結果(第2主成分)

ピーク

係数

試料

①

0.00

②

0.82

③

0.57 スコア(v)

試料A 10 15 4 20.56

試料B 10 4 15 7.25

試料C 7 15 5 20.69

分散

(ばらつき) s1 s2 s3 sv

スコア(u)

-6.30

20.56

9.17

7.25

-5.52

20.69

結果から分かること

1.ピーク①は試料間の違いにあまり関与しない（係数が0)

2.ピーク②は試料間の違いを表すスコアvに“正の影響”を与える

3.ピーク③は試料間の違いを表すスコアvに“正の影響”を与える

スコア(v)

PCAのLoadingとScore

Page 53

試料A

試料B

試料C


ピーク③

10 15 4

10 4 15

7 15 5

スコア(u)

-6.30

20.56

9.17

7.25

-5.52

20.69

スコア(v)

ピーク

スコア ① ② ③

u 0.00 -0.63 0.78

v 0.00 0.82 0.57

各試料のスコアの係数をLoadingといい、スコアに与える影響度を表す。

スコア(u)

スコア(v)

①

②

③

Loading Plot

Score Plot

各試料の情報(属性など)からScore

Plotのスコアu,vの意味付けを行い、その意味付けについて、クロマトグラム中の各ピークの影響度をLoading Plotから理解します。

Page 54

主成分分析 (PCA, Score plot)

Next

各サンプルの傾向を視覚化するには、Score plotが便利です。

各サンプルの傾向を表示するためには、平均化していない

Interpretationを選択する必要があります。

また、ここで指定するentity listを再現性や統計的有意差に

よって絞り込むことで、各サンプル群のPCA結果が各々の

特徴を反映していきます。

Page 55


Eigenvalues は各主成分の寄与率（情報量全体のうちその主成分が説明できる割合）を示しています。赤のプロットは各主成分の寄与率を、青のプロットは寄与率の累積値を示します。一般的に、この寄与率が70～80％以上であれば、よく説明されていると言われます。また、少ない主成分で多くの寄与率があるほど、よいモデルであると言われます。

3次元空間上でCtrlキーを押しながら

マウスカーソルをドラッグさせると、

軸を回転させることができます。

また、Shiftキーを押しながら

マウスカーソルを上下にドラッグさせると

ズームイン・アウトができます。

Page 56


データ処理によるPCA(主成分解析)の変化

PCA of the data

All entities (19786)

PCA of the data

Entities filtered by frequency (3744)

品種 A 品種 B 品種 C

FILTRATION FILTRATION

PCA of the data

Entites after ANOVA (p≤0.05)

& Fold Change (≥2.0) (93)

各種、統計的フィルターを使って有意に差のある化合物を絞り込んでいくことで、サンプル群の傾向がはっきりしてくることがわかります。

後述する判別分析 (Page 121)ではこの様に特徴付けが明白なentity list

を用いることで、精度の高い判別結果が得られます。

Page 57

Page 25参照

Page 69 - 77参照

Page 58

主成分分析 (PCA, Loading Plot)

PCAはサンプル群を三次元空間に表示するScore Plotだけでなく、

各化合物を二次元上にLoading Plotで表示させることも可能です。

使用可能な統計の検定

2-Way 3-Way

T-Test ANOVA

Time 24 hr Time 0 hr Time 0 hr Time 24 hr Time 48 hr

Time

0 hr

24hr

Treatment

Control

Drug A

Genotype

WT

KO X

Time

0 hr

24hr

Treatment

Control

Drug A X

One-way Tests: 一つのパラメータでサンプルグループを比較する。

N-way Tests: 2つ以上のパラメータでサンプルグループを比較する。

Page 59

2つのサンプルグループを比較するOne-way Tests

パラメトリック検定:

• T-test unpaired

• T-test paired

• T-test unpaired unequal

variance

ノンパラメトリック検定

• Mann-Whitney unpaired

• Mann-Whitney paired

Page 60

Paired T-tests

もっとも一般的な組み合わせの例としては、例えば右の表のように、変数として各個人を表し、もう一つの変数として、コーヒーを“飲む前”と“飲んだ後”の器用さといったような、ものがあります。

もし、各個人の個人差が大きく、“コーヒーの効果” が小さい場合は、t-testでコーヒーの差を検出するには非常に多くの個人の情報（Biological replicates）を集めないといけません。

paired t-testを使用することで、グループ間の変動が、グループ自身の変動より小さい場合でも、統計検出力をt-testよりも高めることができます。

Dexterity

Before

Coffee

Dexterity

After

1 Cup of

Coffee

Dan 5.4 3.9

Kelly 5.9 4.5

Tom 7.6 6.3

Janet 8.2 7.9

David 4.7 5.0

Page 61

Parametric Test (パラメトリック検定)

正規分布は上記の図のように釣鐘型の形をしており、平均値に対して左右対称の形をしています。平均値から両側1σ(標準偏差)までの面積が全体の 68.26% 、2σまでの面積が全体の95.44%、3σまでが全体の97.5%の面積を占めます。

MPPのパラメトリック統計検定(Parametric statistical tests)では、各化合物ピークのアバンダンスが正規分布の母集団からサンプリングされたと仮定して検定を行います。

パラメトリック統計検定(Parametric statistical test)の不等分散(unequal variances)では、比較するサンプルグループの分散(σ2 )が等しくないという前提で検定を行います。

Expression of Gene X

頻度

µ = 母集団平均

σ = 母集団標準偏差

Page 62

Non-parametric Tests (ノンパラメトリック検定) Non-parametric Testsは正規分布を前提としません。

サンプルグループ間の分散が等しくないと想定します。

測定サンプルデータの標準化データ(Normalized Data)の順番に番号をつけ、標準化データ逸脱値の影響を減らします。

サンプルグループ間の繰り返し回数（replicates）が少ないと、同じサンプルグループでパラメトリック検定（parametric tests）を行った場合に比べて、統計的検出力は少ないです。

Gene X Untreated

Normalized

Intensity

Treated

Normalized

Intensity

Untreated

Rank

Treated

Rank

Replicate 1 4.5 1.3 6 2

Replicate 2 .7 1.7 1 3

Replicate 3 2.3 3.5 4 5

Page 63

3つ以上のサンプルグループを比較するOne-way Tests

パラメトリック検定

• ANOVA

• ANOVA unequal variance (Welch

ANOVA)

• Repeated measures

ノンパラメトリック検定

• Kruskal Walis

• Friedman

Page 64

Repeated Measures ANOVA

もし、各個人の差が大きく、、“コーヒーの効果” が小さい場合は、ANOVAでコーヒーの差を検出するには非常に多くの個人の情報(Biological replicates)を集めないといけません。

Repeated Measures ANOVA を使用することで、グループ間の変動が、グループ自身の変動より小さい場合でも、統計検出力を高めることができます。

Paired t-testと同様に、各個人の個人差による変動を効率よく除去するにはいくつかの段階を経る必要があります。

Dexterity

Before

Coffee

Dexterity

After

1 Cup of

Coffee

Dexterity

After 2

Cups of

Coffee

Dan 5.4 3.9 3.7

Kelly 5.9 4.5 4.6

Tom 7.6 6.3 6.0

Janet 8.2 7.9 5.8

David 4.7 5.0 3.2

Page 65

統計学的有意差のイメージ

Page 66

P-value の計算方法

Asymptotic Method(漸近法)

• 算出の前提として、化合物ピークのアバンダンスが正規分布をして各分布の分散が等しいとします。

• よって、検定で使用されるパラメータ (t-ratio, f-ratio) も同様に正規分布すると仮定し、計算します。

• これらの前提をしないで計算する場合は、以下のPermutation Methodでp-

valueを計算します。

Permutation Method(並べ替え法)

• 潜在的に存在する分布を想定しません。

• サンプルを並べ替えて、調査のためのテスト評価基準の分布を作成します。（Permute samples and build distribution of test metrics for probe）

• P-value は順番に並べられた計算値が実測値よりも大きくなる割合です。（the

fraction of permutations in which the test metric computed is larger than the

actual test metric for that sample)

Page 67

Permutation testとは

ある観測で、

A集団の平均＞B集団の平均

という結果が得られたとする。その平均値の差をxとする。

ここで帰無仮説：

A集団の平均=B集団の平均

として、AとBのサンプルを１つにまとめ、サンプルサイズ=nからなる母集団からランダムにとってきた集団とみなす。

この集団をランダムな２つの集団に分け直す。この場合、サンプルの組み合わせは全部で（n）C（1/2n）通り。

もしA,Bの属する母集団が同じであって平均値の違いはたまたま生じた差だとすれば、全ての組み合わせの中でも、xより大きな差は頻繁に見られるはず。

そこで、「全ての組み合わせについて平均値の差を計算して」、xより大きい組み合わせがいくつあるか数える。それが、全ての組み合わせのうち5％を越えていたら「たまたま生じた差」とみなす。

Page 68

What p-value Cut-off to Use?

Depends on what type of error you are more comfortable with

• Type I の誤り (false positive): 有意差がないのにあると判定されてしまった

• Type II 誤り (false negative): 有意差があるのにないと判定されてしまった。

P-ValueのCut-offはtype I の誤りと type IIの誤りのトレードオフとなる。

5HT1c 0.002364

NFL 0.002649

NMDA2C 0.017181

aFGF 0.027544

GRa3 0.041179

actin 0.045342

nAChRd 0.046372

EGFR 0.0468

bFGF 0.087842

5HT2 0.106591

Brm 0.137903

SOD 0.147089

mGluR2 0.174708

IGF.I 0.223558

SC2 0.274809

trkC 0.288776

mGluR1 0.313801

SC6 0.343059

CNTFR 0.354717

pre-GAD67 0.366955

BDNF.rat 0.417615

GDNF 0.421125

IP3R2 0.421308

L1 0.443525

GAD67 0.462416

H2AZ 0.561907

IP3R1 0.573717

MK2 0.630177

CCO2 0.640797

mGluR3 0.654866

PDGFa 0.659352

IGF.II 0.683554

CNTF 0.690512

nAChRe 0.701041

IGFR2 0.728141

GAP43 0.732078

ODC 0.745628

SC1 0.74575

NT3 0.78811

PTN 0.795557

trk 0.82403

mGluR5 0.8305

cjun 0.839991

Ins2 0.841945

MAP2 0.851833

neno 0.879299

GRb1 0.888485

TCP 0.892361

GRb2 0.900601

S100beta 0.930265

本当は有意差があるサンプル。

本当は有意差がないサンプル。

p-value=0.05

検定で有意差があると判定

検定で有意差がないと判定

Page 69

Page 70

Ｔ-検定、およびANOVAによるentityの絞り込み

Next

Next

Next

3群以上の比較にはANOVA を

選択してください。

ANOVAにより、entityがp値で絞り込まれました。

P値はデフォルトで0.05 (棄却域5%) になっていますが、

この数値を小さくすると、より化合物数が絞られます。

多重検定の補正

Page 71

統計の多重検定の問題点

• 統計計算を多くの化合物ピークで行うため、5%のp-valueでも、ちりも積もればかなりの量となる。

– 10000 peaks = 10000 回、個別に統計検定を実施

– p-value = 0.05 として10000 のピークに対して検定を行うと・・・

• 500 peaks (0.05 x 10000) でType Iの誤りが発生する可能性がある。

• 統計検定の回数を増やせば増やすほど、それに比例してfalse positiveも増加してしまう。

• 統計解析を行う前に、データのQuality Controlを行うことで、false positiveの数を減らすことができる。

• 多重検定補正(multiple testing correction：MTC) を行うことで、更にfalse

positiveを減らすことができる。

Page 72

MPPのMultiple Testing Correction (多重検定補正)

オプション

Family-wise error rate (FWER)

– Bonferroni

– Bonferroni Holm

False Discovery Rate (FDR)

– Benjamini Hochberg

Individual (genewise) error rate (p-value cut-off)

(Probability of false positive for each test)

– No Correction

Page 73

Multiple Testing Correction の例

以下の通り変数を定義します。

• N = MTCを行う前にANOVAを通過したピーク数

• Pi = MTCを行わない、ピークiのp-value

• = ユーザーが設定したp-cutoff値

• Pposti = MTCを行った後の、ピークiの p-value

計算を行うために、以下の値を代入します。

• N = 100

• = 0.05

Page 74

Family-wise Error Rate MTC: Bonferroni

FWER = 0.05で100個の化合物ピークを検定した時に • P1 = 0.0002 • P2 = 0.0004 • P3 = 0.0006 ….. P100

という値であったとすると、

• Ppost

1 = (0.0002)*(100) = 0.02 • P

post

2 = (0.0004)*(100) = 0.04 • P

post

3 = (0.0006)*(100) = 0.06

となります。結果としては

• 0.02 < 0.05 化合物強度に有意差があると認められる • 0.04 < 0.05 化合物強度に有意差があると認められる • 0.06 > 0.05 化合物強度に有意差があるとは認められない

複数回繰り返された検定全体において帰無仮説が棄却される可能性を、family-wise error rateと呼びます。

Page 75

Family-wise error rate MTCの問題点と解決方法

Family-wise error rateの調整は、「何回検定を繰り返しても、全体のαレベル(family-wise error rate)は0.05を超えないようにするぞ！」という非常に保守的な方法です。したがって、本当は有意差があるのに、帰無仮説が棄却されないというType II (false

negative)の誤りが問題になります。

そこで、ある程度Type I (false positive)を許容して、Type IIを起こす可能性を小さくする方法の一つとして、false discovery rateを調整するという方法が開発されました。false discovery rateは、簡単に言うと、「棄却された全ての帰無仮説のうち、Type Iが含まれている確率」です。

Page 76

False Discovery Rate MTC: Benjamini & Hochberg

統計検定の結果(ANOVA, two-sample t-tests etc.)から得られた 100個のp-value を降順に並べます (P1>P2>…>PN)

例: P 1 = 0.0499….

P 65 = 0.0339

P 66 = 0.0333

P 67 = 0.0311 ……P100

各P-valueに、100/(その番号)を掛けたものをPpost

iとします。

Ppost

65 =(100/65)* 0.0339 = 0.0522

- > 0.05 有意差は認められない

Ppost

66 = (100/66)*0.0333 = 0.0505

- > 0.05 有意差は認められない

Ppost

67 = (100/67)*0.0311 = 0.0464

- < 0.05 有意差が認められる

よって ppost67 から ppost

100 は有意差があるとして、その中に潜在的なfalse positive のピークは5%ある。

Page 77

More false

negatives

More false

positives

多重検定方法の使い分け

> Family-wise Error Rate

• 非常に保守的で一切のFalse Positiveを許さない。

> False Discovery Rate

• MTCで検出されたピークに、p-value分のFalse Positiveが存在する。(False positive a percentage of called peaks)

> None

• 検定で用いたピークに、p-value分の割合でFalse Positiveが存在する。(False positive a percentage of peaks being tested)

Bonferonni FWER

Bonferonni Holm FWER

Benjamini Hochberg FDR

No Correction

Page 78

MPPの統計

Post Hoc Tests

Page 79

なぜ、post-hoc testが必要なのか? (1)

One-way ANOVA model

• 帰無仮説：グループ間の平均値に有意差はない、と仮定。

• H0: µ1= µ2= µ3= µ4= µ5

• ここでもし H0が棄却されても、何が棄却されたか、といった情報は得られません。

どの条件で棄却されたかを知るにはどうしたらいいでしょうか？

ここでは、1つの化合物ピークで5つの条件を仮定します。

Page 80

なぜ、post-hoc testが必要なのか? (2)

可能な解決策：

各条件の組み合わせで、2群のt-testを実施する。

H0: µ1= µ2= µ3= µ4= µ5

• この場合、5つの条件があるため、全部で10通りの組み合わせの検定を行う必要がある。

• 複数回の検定→false positive の増加

その他の解決策: post-hoc testの実施

• false positiveを減らすことができる。

Page 81

Post-hoc Test

MPP post-hoc testオプション: • Tukey’s Honestly Significant Difference (HSD) test • Student-Newman-Keuls (SNK) test

Tukey’s と SNK の検定はいずれも正規化されて等しい分散であると仮定して実施されます。 • One-way testで有意差があると認められた化合物ピークだけがPost-hoc testにかけられます。

• Post-hoc testは、正規化されて等しい分散であるという過程で選んだOne-way testで行った場合に、妥当な結果が得られる。

有意差があると認められた化合物ピークについて、各条件のピークアバンダンスの平均を、ペアで比較していきます。 Tukey の方がSNKよりもconservativeな結果になります。 Post-hoc testsはMPPのOne-way testで行うことができます。

Page 82

Post-hoc Tukey Test

ANOVAで有意差が認められた化合物ピークXの5つの条件について、以下の帰無仮説を立てます。

H0: µ1= µ2= µ3= µ4= µ5

ここで、各条件での化合物ピークのアバンダンス平均を以下の通りとします。

X1 = 32.1 X2 = 40.2 X3 = 41.1 X4 = 44.1 X5 = 58.3

それぞれのpairwise q to critical value q (for group)を計算し比較します。

– 5 vs. 1: significant (reject H0: µ5= µ1)

– 5 vs. 2: significant




– 4 vs. 2: not significant (does not reject H0: µ4= µ2)

– 4 vs. 3: not necessary


– 3 vs. 2: not necessary


Final results: 32.1 40.2 41.1 44.1 58.3

or µ1≠ µ2= µ3= µ4 ≠ µ5

Page 83

Post-hoc Group サマリー結果

Boxをクリックした後にUnionまたはIntersectionいずれかをクリックすると、ボックスに含まれる化合物ピークのEntityリストを作成する

ことができます。

青いBoxは2つの条件で

有意差が認められた化合物ピークの数になります。

オレンジ色のBoxは2つの条

件で有意差が認められなかった化合物ピークの数になります。

Page 84

統計解析

N-way ANOVA

Page 85

2-way ANOVA

2変数の効果を確認するための検定

(Tests for effects of two parameters)

• 各サンプルは2つのパラメータから得られた値を持つ。 (例：Treatment type and

Time)

• 化合物ピークの変動は”Treatment type”、”Time”、両者の相互作用によるもの??

各化合物ピークについて、3つの p-values が計算されます。 • Generate p-value for effect of treatment

• Generate p-value for effect of time

• Generate p-value for effect of interaction between treatment and time (change in expression influenced by both parameters)

Page 86

2-way ANOVA Design

T I M E

0 wks 2 wks 6 wks

n=3

n=3 n=3 n=3

n=3 n=3

Page 87

Acceptable Designs for Analysis in MPP (必要なサンプル数)

バランスが取れていないDesign: 条件によりサンプル数がバラバラ

All three p-values calculated

繰り返しのないDesign: 各条件とも1サンプルしかデータが得られていない

Interaction p-values will not be calculated

No Drug Drug A Drug B

Time 0 1 1 1

Time 1 1 1 1

Time 2 1 1 1

Time 3 1 1 1


Time 0 5 5 5

Time 1 5 5 5

Time 2 5 5 5

Time 3 5 5 5


Time 0 3 4 2

Time 1 7 8 4

Time 2 9 11 5

Time 3 6 8 4


Time 0 7 7 0

Time 1 7 8 4

Time 2 9 11 5

Time 3 6 8 4

サンプル数が0の条件がある。: Test will not be

performed

バランスの取れたDesign: 各条件で5回ずつサンプルされている。

All three p-values calculated

Page 88

2-way Test Results

Venn図で、必要な条件を

満たす部分をクリックして、その条件を満たす化合物ピークをEntity Listとして保存できます。

Page 89

3-way ANOVA

3変数の効果を確認するための検定

• 各サンプルは3つのパラメータから得られた値を持つ。 (例：Treatment type,

Time and Gender)

• 化合物ピークの変動は1) treatment types, 2) different time points, 3)

different gender, 4) interaction of treatment-time, 5) interaction of

treatment-gender, 6) interaction of time-gender 7) or the interaction

between treatment-time-genderのどれによって引き起こされているか?

各化合物ピークについて、上記の7 つのそれぞれのp-valuesが計算されます。

Page 90

3-way ANOVA Results

各化合物ピークで, 7つの p-values が計算されます。

7 つのEntity Listsが作成され、各条件・相互作用のp-valueがそれぞれ含まれています。

• Empty lists will not be saved

Page 91

Fold Change

Fold changeは2つの条件における化合物ピークの強度レベルを比較して違いを判別する測定基準です。

ユーザーは”2倍(2-fold)”といったような閾値を設定することができます。

Fold Changeでは、それぞれの化合物ピークに対して、条件1のアバンダンス平均に対する、条件2のアバンダンス平均の比で表わされます。

化合物ピークのピークが2つの条件で増えたか減ったかを表示することができます。

Page 92

Page 93

Fold Changeによるentityの絞り込み

Next

Next

Next

Fold Changeにより、entityが絞り込まれました。

Fold Changeパラメーターはデフォルトで2.0になっていますが、

この数値を大きくすると、より化合物数が絞られます。

スライダーではきりのいい値になりませんので(3.0ではなく

3.019などとなる)、値をキー入力し、Enterキーを押すことで

フィルター値が反映されます。

3群比較で、A対B、B対C、C対Aにおいて

強度比が一定数以上変化しているentityを

残します。チェックボックスは全て入れてください。

Page 94

2群間比較をScatter Plotで表示する

Tea 1に特徴的

Tea 2に特徴的

Scatter Plotは2群間の比較しか出来ませんが、

シンプルで理解しやすい表示方法です。

X軸、y軸はそれぞれサンプル群の中から選択し、

プロット画面右下方向のものほどx軸群に特徴的、

プロット画面左上方向のものほどy軸群に特徴的な

成分であることを示しています。

右クリックで”zoom mode”を選択し、マウスをドラッグ

させれば選択した領域の拡大を行うことができます。

初期設定では”Selection Mode”になっているため、

マウスをドラッグさせるとEntityの選択を行うことができ

ます。

選択したEntityは、”Create entity list from selection”

(②)から、別リストにまとめることが可能です。

②

Volcano Plot(1/3)

Page 95

Next >>

Next >>

比較する2つのConditionを指定します

Volcano Plot(2/3)

Page 96

Next >>

結果の表示（Volcano Plot）

サンプル群2に多いサンプル群1に多い

P-v

alu

e

(上ほど小さい

=有意差がある

)

Cut-off値を調整できます Volcano Plotは、t検定とFold Changeを同時に

行えるので二群比較に便利な機能です。

三群以上の比較には使用することが出来ません。

Volcano Plot(3/3)

Page 97

クラスター分析とは？

クラスターは「似たグループ」を集めて視覚化する統計解析の手法です。

クラスター間の距離(類似度)を樹形図(ツリー)

で表したものを「デンドログラム」と呼びます。

ツリーの高さが各クラスタ間の距離となり、

このようなクラスターを

「階層型クラスタリング」といいます。

A

B

C

D C A D B

Page 98

Clustering

Clustering は“教師なしの分類”の方法と呼ばれており、データセットのパターンを表示する方法です。

Clustering は、化合物ピークを類似度の高いグループに分けます。

“entity-level”の clusteringから、同じクラスタに属する化合物ピークは何らかの関連があると推察することができます。

“sample level”の clusteringから、サンプルレベルのQuality

Controlが行え、異なる条件で違いを示す化合物ピークを見つけることができます。

Page 99

High Low

グループ A B C D

④特定のグループの特徴的なコンポネントが一まとまり（クラスター）に表示されます。

階層型クラスタツリーの例：似たコンポーネントを集める

①クラスタツリー中の1つ1

つのマスが、各データファイルに含まれるコンポーネント(化合物ピーク)を表します。コンポーネントのアバンダンス（強度）は色で表示されています。

②似た変動を示すコンポーネント同士を近くに配置して、ツリー（線）でつないでいます。ツリーの高さが、コンポーネントの類似度を表しています。

横方向は

コンポーネント

(化合物ピーク)

③似た変動パターンを示すデータファイル（サンプル）同士を近くに配置して、ツリー(線)でつないでいます。ツリーの高さが、サンプルの類似度を表しています。

縦方向はデータファイル（サンプル）

Page 100

クラスタの作成で考慮する点

1) 何をクラスタで一緒にまとめたいか?

2) どの“類似度”を選択するか?

3) どのクラスタアルゴリズムで計算するか?

Page 101

階層型クラスタリングの長所と短所

長所:

• 全ての関連性ツリーが構築されるため、K-meansや自己組織化マップ(SOM)、PCAに基づいたクラスタリング手法よりも詳細な情報が得られます。

短所:

• 類似度指標の算出法によっては、解析初期段階の小さな誤差が大きな差として出力される恐れがあります。

• クラスター毎のentity listを直接出力できない為、ツリーからマニュアルで出力する必要があります。

Page 102

K-meansクラスタリングの長所と短所

長所:

• 計算速度が最も速いクラスタリング手法で、メモリ使用量も最小で済みます。

短所:

• クラスターの数が適切でないと、正しく分類されない可能性があります。

• クラスター間の関連性、及び同一クラスター内の化合物間の関連性について情報が得られません。

Page 103

クラスタを作成するために、どのような類似度を選択するか

類似度の指標はEntityやConditionの近さを数学的に計算して算出されます。指標は類似度の計算式によって異なります。(同じサンプルでも) 全体のトレンドを強調する指標もあれば、大きさを強調する指標もあります。

類似度の指標は以下の組み合わせの類似度の度合によって割り当てられます。 Entityの変動プロファイルの組み合わせ

Sample/Conditionの変動プロファイルの組み合わせ

Page 104

MPPで使用できる類似度の指標

それぞれの類似度は以下の2

種類のいずれかの値を持ち、類似度を数値化します。

• 距離 (0 から無限大)

• 相関 (-1 to 1)

MPPで使用できる類似度(Similarity)

Euclidian

Squared Euclidian

Manhattan

Chebyshev

Differential

Pearson Absolute

Pearson Centered

Pearson Uncentered

Page 105

類似度

類似度の指標は適切なものを選択する必要があります

例

• カテゴリデータへEuclidian距離を当てはめるのは適切ではない。

• 高度に歪んだ分布に対して相関の類似度を当てはめると、誤った結果をもたらすことがある。

Page 106

クラスタ分析(1/6)

Page 107

k-Means：あらかじめクラスタ数(k)を指定して、Entity を分類します。

Hierarchical：階層型クラスタツリーを作成します。

Self Organization Map：自己組織マップでEntity を分類します。


Page 108

Finish


Page 109

サイズ調整します

次々ページで説明

サイズ調整します

110


選んだ部分が拡大されます


Page 111

Propertiesを選択します

Entity clusters color thresholdを

調整して、大まかなクラスターに

色分けされていることを確認します。

次に、Create Classificationで

クラスター数を確認し、OK押します。


Page 112

ダブルクリックすると

各クラスタに分類された

結果が表示されます

Page 113

クラスター分析結果の画面上で

右クリックし、“Properties”を

選択してください。

Row HeadersをCompoundに

設定すると、分析結果の右側に

化合物情報が表示されます。

Color Rangeを設定する

ことで、強度比の色を変える

ことが出来ます。

Renderingタブ中のRow Header

Widthをスライドさせることで、

表示させる化合物情報の幅を

設定することが出来ます。

表示色やレイアウトを変更したいのですが、、、


読み込み





グループ定義

データの準備





IDBrowser


（判別分析）

推定する


での解析







（Venn図）

Page 114

ID Browserによる化合物推定

MPPでライブラリサーチを行う機能です。(Mass Hunterも同じ機能を有しています）

Entityのマススペクトル

ライブラリのマススペクトル

Entityとライブラリのマススペクトルの同時表示

化学構造式

（データベースインストール時のみ使

用可能）

検索結果

Page 115

効率よくentity (=compound)をIDするには、、、

ID Browserは、現在開いているentity listの

全entityをMETLIN+組成式計算でIDします。

Entity数が数十であれば計算時間は10秒程度で

済みますが、左図の様に100-1000以上のentityとなると

化合物を１つIDする度に全entityを読み込ませて

いては、解析が非効率なものとなります。

そこで、マウスをドラッグさせて興味のある

化合物のみを選択し（緑色に変わります）、

Create entity listのアイコンをクリックすることで

ID Browserに持ち込む化合物を絞ることが

効率の良い解析のコツになります。

この化合物のみIDしたい

Page 116

Next Finish

ID Browserの設定

デフォルトの設定では

１） DBはMETLINで5ppm以内の

精度で保持時間を加味せず質量のみで検索

２）組成式は右図の構成元素で計算

となっております。

DB検索結果と組成式結果が違うということを

避けるために、DBのToreranceは

2ppm程度にした方が良いでしょう。

Page 117

ID Browserの実行結果

DB検索、及び組成式計算が終了すると、Compound Listが表示されます。

ここには組成式、CAS番号、化合物名などが表示されます。

また、このCompound ListはMassHunter Qual.のものと同じもので、

Cefファイルの中には化合物名、組成式、CAS番号などの情報が含まれています。

よって、MassHunter Qual.上からFind by Molecular Feature、Find by Formula等の機能を

使用してCompound Listを作成した後、Identify compounds > Search DatabaseやGenerate Formula

を行い、Compound Listに名前や組成式を付けた状態でFile > Export > as cef を実行して

MPPの標準形式である.cefファイルを作成すると、

MPPのEntityに保持時間、質量だけでなく名前やID情報もannotationとして付いてくるので

entityの絞込みが楽になります。

後述するPathway解析は、CAS番号を基に代謝マップに当てはめていくので、DBにCAS番号が含まれていない場合は

Manual Identification機能を使い、CAS番号を入力します。（次ページ参照）

Page 118

Manual Identificationの実行

Page 119

ID Browser上でCompoundを選び、右クリックをすると

Add/Edit Manual Identification が選択できます。

ここで現れるウィンドウでCAS IDを指定すると

その番号がCompound Listに張り付くので、

Save and Returnを実行すれば、

マニュアルでIDした結果をパスウェイ解析に

持ち込むことができます。

Page 120

Class Prediction (判別分析)

sample class prediction

model作成のためには

再現性の良いEntityを選ぶ

ことが重要です

Page 121

Class Prediction (判別分析1/8)

Page 122


Page 123


アルゴリズムを選択して

Nextをクリックします

Page 124


Page 125


Page 126


判別したい未知サンプルを

選択します

Page 127


Page 128


Page 129


Page 130


Page 131


Page 132


判別モデルを選択します

例：Naïve Bayes

Page 133


判別したい未知サンプルを

選択します

Page 134


Page 135


Page 136


判別モデルのアルゴリズム (1)

-Decision Tree (決定木)-

Entity Sample 1 Sample 2 Sample 3

Entity1 [email protected] 2200 1000 2500

Entity2 [email protected] 1800 1500 2900

Entity 1

>2000?

Entity 2

>2000? Sample 2

Sample 3 Sample 1

No

Yes No

Yes

Page 137


-Support Vector Machine (サポートベクターマシン, SVM)-

Condition 1

Condition 2

Condition 3

サポートベクターマシンは各点からのマージンを最大化する

超平面(separation plane)を学習する方法です。

Page 138


-Naïve Bayes (単純ベイズ)-

ベイズ分類器は連続した値（イオン強度など）、カテゴリー値（アンケートの1.悪い～5.良い)の

両方を扱うことが可能で、複数のクラスに分類することができるアルゴリズムです。

この判別アルゴリズムはサンプルが各クラスに属する確率を予測します。

ベイズ分類器モデルは各化合物に対する既知データの分布関数に基づいて構築され、

学習した確率密度関数に基づいてデータポイントを分類します。

Entity 1

Entity 2

Entity 3

分布関数

Condition 1

Condition 2

Condition 3

入力

(各化合物の強度) 出力

(予測クラス = 最大確率を持つcondition)

確率

Max

probability?

Page 139


-Neural Network (ニューラルネットワーク)-

Entity 2

Entity 3

Entity 4

Entity 5

Entity 1

Condition 1

Condition 2

Condition 3

入力


(予測クラス = 最大スコアを持つcondition)

Max

score?

Neurons

Page 140


-Partial Least Square Discrimination (PLS回帰分析)-

PLS回帰分析のゴールは、化合物強度からクラスを予測することです。

PLS回帰分析は化合物とクラスを直交成分と各化合物毎のローディングとして分解します。

Entity 2

Entity 3

Entity 4

Entity 5

Entity 1

ローディング

(重み)

Condition 1

Condition 2

Condition 3

入力


(予測クラス = 最大スコアを持つcondition)

スコア

Max

score?

Page 141


読み込み





グループ定義

データの準備





IDBrowser


（判別分析）

推定する


での解析







（Venn図）

Page 142

MassHunter上での確認

Page 143

検索や化合物の絞り込み結果が得られたら、

結果のxxx.cefを作成します。

MassHunter Qualソフトを開き、

該当データを開いた後に、

上記xxx.cefを開いて実行すると

リストされた化合物の

・マスクロマトグラム

・マススペクトル

が表示されます。

化合物抽出条件

これらの条件に基づいて

・マスクロマトグラム

・マススペクトル

を抽出します。

144

便利な機能

Page 145

Page 146

便利な機能1：Create Entity List

興味あるEntityを選択します。

右クリックしてZoom Modeも使えます。

選択した5 Entities Listが

作成されました

選択されたEntityのEntity Listを作成

Page 147

便利な機能2：Find Similar Entities

CompoundやMassのタイトルクリックしてソートし

例：Caffeineを選択します

Page 148


Minimum, Maximumを調整して、

似た挙動のEntitiesを選択します

Page 149


Caffeineと似た挙動の

16 Entitiesが抽出されました

Page 150

解析結果をExcelに出力する場合は、Data Spreadsheetを選択し、

右クリックからSelect All Sheetを選び、コピーします。強度はlog表記されて

いますので、1.0は検出されなかった、データ抽出されなかったことを示しています。

便利な機能3： Data Spreadsheet

Page 151

便利な機能4：ディレクトリとバックアップ Mass Profiler Professionalでは、.docや.xlsファイルの様にwindows上でexperimentを削除する

ことはできません。（厳密にはC:\Program Files\Agilent\MassHunter\Workstaion\MassProfilerPro\app\Data\files\gxuserに

Experimentは保存されてはいますが、名前から判断できないファイル名になっています。） Experimentの削除はMass Profiler Professional上から行なってください。

また、experimentを保存し、後日別のPCで解析を行なう場合やバックアップには、

Project→Export Projectから、.tarファイルとして保存してください。

便利な機能5:Venn図

Page 152

最大4Entityリストから

集合の考え方で

絞込みできます

Venn図を表示する

便利な機能6:MPPのインストール方法

Page 153

Use proxyのチェックボックスは

記入せず、proxyも空欄のまま

Order IDを入力し、OKを押します。

便利な機能7-1: Filter On Parameters

Page 154

事前にExperiment Groupingで

Parameter typeがNumericの

パラメーターを作成します。

仮に、ブルーマウンテンの活性を1とした場合、キリマンジャロが2、モカが3として、その活性と相関する

Entytyを探す例とします。


Page 155

AnalysisからFilter on parameterを選択します。

Entity List、Interpretation、相関を探したいParameter、Similarity Metricを選択します。

ピアソン相関係数は線形の相関解析なので、非線形の相関を解析したい場合はスピアマン順位相関係数を

使用します。


Page 156

Cutoff値のレンジは1に近いと相関、

0で相関なし、-1に近いと逆相関です。

Nextボタンで次に進み、名前を確認してFinishボタンで

Entity Listを保存します。

Date post:	22-May-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

MPP easy guideVolcano Plot Fold Changeとt-検定を時に行います。 主成分分析(PCA)...

Documents

MPP easy guideVolcano Plot Fold Changeとt-検定を時に行います。主成分分析(PCA)...