+ All Categories
Home > Documents > 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線?...

医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線?...

Date post: 11-Jun-2020
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
43
医療統計学 vol.13 木村 朗 重回帰分析とロジスティック回帰分析 RGR
Transcript
Page 1: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

医療統計学 vol.13

木村 朗

重回帰分析とロジスティック回帰分析 RGとR編

Page 2: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

RGとRの準備

Page 3: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

ロジスティック曲線?

•人口予測のための関数として、1883年にピエール・フランソア・ベルハルスト(Pierre Francois Verhulst)によって提唱されたものです。 この曲線は、生物が生長する様子を表す成長曲線として、生物学分野では昔から利用されています。

ロジスティック式は、個体群生態学において、個体群成長のモデルとして考案された微分方程式である。その後、カオス理論の出発点の一つともなり、現在では、生態学のみならず、多くの分野で応用が行われている。

Page 4: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

二重ロジスティック関数:ガウス関数を変形した物。

• 医学・薬学分野では、この曲線は判別分析とロジスティック回帰分析で利用されています。 これは、判別スコアから群1に属す確率pを求める計算式が、理論的にロジスティック曲線の式になるからです。 またロジスティック曲線は計算が比較的簡単なため、累積正規分布曲線の近似曲線として利用されることもあります。

Page 5: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

•累積正規分布曲線と同様に、ロジスティック曲線を微分すると閾値の分布になり、閾値の平均値と標準偏差を求めることができます。 ただしロジスティック曲線から求めた閾値分布は、累積正規分布曲線から求めた閾値分布、つまり正規分布の近似分布であり、閾値が理論的にこのような分布をすることはあまり考えられません。

• このため閾値を解析する時は、累積正規分布曲線とプロビット変換を利用した方が正確です

Page 6: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

ロジスティック曲線を微分する

Page 7: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 8: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

ロジスティック回帰分析の原理

• ロジスティックモデル • ロジスティック回帰分析(logistic regression analysis)は、疾患のリスクファクターを分析するためによく用いられる多変量解析手法です。 この手法は、1948年にアメリカのフラミンガムで開始された、フラミンガム研究(Framingham study)のために開発されました。

• フラミンガム研究は冠状動脈性疾患に関する大規模なコホート研究であり、複数のリスクファクターつまり「多重リスクファクター(multiple risk factor)」が疾患に及ぼす影響を分析することを目的のひとつにしています。 そしてそのために開発されたのがこのロジスティック回帰分析であり、現在も主として医学分野で用いられています。

Page 9: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• この手法は、数学的には説明変数が計量尺度のデータで、目的変数が名義尺度を計量尺度化したデータである重回帰分析に相当します。

•説明変数が計量尺度で目的変数が名義尺度の場合、普通は目的変数を0/1のダミー変数で表し、さらにそれを1の出現率に計量尺度化して回帰直線を求め、その回帰係数の検定としてコクラン・アーミテージの傾向検定を行います。

Page 10: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

•以下のデータについて、生後日数分類と尾長8cm以上の出現率を直線で回帰した場合と、シグモイド曲線で回帰した場合を比べる

Page 11: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

生後日数分類

尾長8cm未満

尾長8cm以上

計 8cm以上の出現率

4-5(4.5) 2 0 2 0

6-10(8) 3 2 5 0.4

11-14(12.5)

1 3 4 0.75

全体 6 5 11 0.455

マウスの生後日数分類と尾長分類

Page 12: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 13: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 14: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• この場合のシグモイド曲線は、ロジスティック曲線を利用しています。 シグモイド曲線には色々なものがありますが、ここでロジスティック曲線を利用したのは、この曲線を利用すると判別分析との整合性を取りやすいからです。 上記のシグモイド曲線において、出現率を対数オッズつまりロジットに変換すると次のようになります。

Page 15: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

ロジット:l=ln( p

―― 1-p

)=-4.258+0.445x

Page 16: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• これは生後日数分類を説明変数にし、ロジットを目的変数にした直線回帰式に相当します。 そこでこの式を一般化し、さらに説明変数を複数にすると、次のような重回帰型のモデルになります。 これを「線形ロジスティックモデル(linear logistic model)」といい、このモデルに基づいた回帰分析のことを、ロジスティック回帰分析またはロジット回帰分析(logit regression analysis)といいます。

Page 17: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

η=ln( π

――― 1-π

)=β0+β1x1+…+βj

xj+…+βpxp+ε (j=1,…,p)

η:出現率πのロジット β0:定数 βj:偏回帰係数 ε:誤差

Page 18: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

調整オッズ比(adjusted odds ratio)

• このモデルは重回帰型ですから、偏回帰係数βjは、他の説明変数が一定で説明変数xjだけが「1」増加した時に、ロジットがいくつ変化するかを表す値になります。

• そしてロジットは対数オッズですから、ロジットの変化量は対数オッズの変化量になります。 さらに対数オッズを指数変換して元のオッズに戻すと、対数オッズの変化量はオッズが何倍になるかを表す値、つまりオッズ比になります。 このため偏回帰係数βjを指数変換すると、他の説明変数が一定で説明変数xjだけが「1」増加した時のオッズ比になります。 このオッズ比は、他の説明変数の影響を取り除いたオッズ比になるため、「調整オッズ比(adjusted odds ratio)」と呼ばれることがあります。

Page 19: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 20: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• ロジスティック回帰分析の結果から生後日数分類のオッズ比を求めると次のようになります。

• OR=exp(0.445)=1.560

• このオッズ比から、生後日数分類の値つまり生後日数が「1」増加すると、オッズが約1.6倍になることがわかります。

Page 21: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• ロジスティック回帰分析の結果から生後日数分類のオッズ比を求めると次のようになります。

• OR=exp(0.445)=1.560

• このオッズ比から、生後日数分類の値つまり生後日数が「1」増加すると、オッズが約1.6倍になることがわかります。

Page 22: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

•OR=exp(0.445×4.5)=exp(2.0025)=7.408

Page 23: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• データから、2番目の生後日数分類と3番目の生後日数分類の実際のオッズ比を計算すると次のようになります。

Page 24: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 25: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• この値は、回帰係数から計算した値と少し違います。 この違いは、回帰係数から計算した値が、生後日数分類全体の平均的なオッズ比に相当することに起因します。 特に表5.11の場合、1番目の生後日数分類の出現率が0のため、1番目の分類と2番目の分類のオッズ比が非常に大きくなり、平均的なオッズ比を大きくしてしまうのです。

• 出現率が非常に低い時、オッズと出現率が近似するため、オッズ比と出現率比も近似します。 表5.11では「尾長8cm以上」というのが「反応有」に相当しますが、反応有が疾患の発症の場合、出現率比はリスク比(相対危険度)になります。 このためオッズ比のことを、近似的にリスク比と解釈することがよくあります。 しかしオッズ比のことをリスク比と解釈できるのは、出現率がだいたい10%以下の時です。 しかも出現率が低い時はリスク比の値の信頼性が低くなり、相対的な危険性という意味が怪しくなります。

Page 26: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• このため出現率が低い時は、オッズ比がリスク比に近似すると解釈するよりも、むしろリスク比がオッズ比に近似し、どちらも単なる関連性の指標にすぎなくなると解釈した方が妥当です。 したがってオッズ比のことを近似的にリスク比と解釈するのは、本当は好ましくありません。

•例えば2番目の生後日数分類と3番目の生後日数分類のリスク比を計算すると、次のようになります。

Page 27: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 28: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

•偏回帰係数から計算したオッズ比も、実際のデータから計算したオッズ比も、この値とはかなり違います。 したがってこの場合は、オッズ比をリスク比と解釈することは不適当であることがよくわかると思います。

Page 29: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

ロジスティック回帰分析と 判別分析の関係

•線形ロジスティックモデルとロジスティック曲線を比べると、定数が異なるだけで、同じ形式の式であることがわかります。 試しに、表のデータで尾長8cm以上を群1に、8cm未満を群2にして判別分析を適用し、群1に属す確率をロジスティック曲線で表すと次のようになります。

Page 30: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 31: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

群1の事前確率π1に実際の群1の出現率5/11を代入すると、次のようになります。

Page 32: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• このように、判別分析の結果をロジスティック曲線で表し、群1の事前確率として実際の群1の出現率を代入したものは、ロジスティック回帰分析の結果とよく似たものになります。 これがシグモイド曲線としてロジスティック曲線を利用する理由であり、これによってロジスティック回帰分析は判別分析の親類筋に当たる手法になります。

• ただしロジスティック回帰分析は、疾患の発症に影響するリスクファクターを分析し、疾患が発症する前に、ある被験者が疾患を発症するかどうかを予測するための手法です。 そのためこの手法は、原則として前向き研究で得られたデータに適用し、説明変数としてはリスクファクターだけを用います。 そして上式からわかるように、ロジスティック回帰式の定数項には事前確率の情報は含まれておらず、実際のデータの出現率つまり発症率が定数項に反映されます。

Page 33: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• それに対して判別分析は診断率の分析を多変量に拡張したものに相当し、疾患の診断に有用な診断指標を分析し、疾患が発症した後で、ある被験者が疾患であるかどうかを診断するための手法です。 そのためこの手法は、原則として後ろ向き研究で得られたデータに適用し、説明変数としては診断指標が本来ですが、リスクファクターを混合してもかまいません。 そして、判別分析におけるロジスティック曲線の定数項には事前確率の情報が含まれていて、それがなければ正しい出現率を求められません。 これは診断率の分析において、疾患の一般的な有病率つまり事前確率を使わなければ、正しい陽性予測値を求められないのと全く同じことです。

Page 34: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• 判別分析とロジスティック回帰分析の比較として、判別分析は多変量正規分布を前提にしているのに対して、ロジスティック回帰分析はそのような前提を必要としないので、ロジスティック回帰分析の方が実際のデータに適している、という説明をしている解説書があります。 しかしロジスティック回帰分析は、ロジットつまり対数オッズ比と説明変数の間に線形関係がある、という前提を必要としています。 これは、説明変数が多変量正規分布をするという前提と同じくらい、現実にはかなり無理がある前提です。

• そして理論的には、説明変数が近似的に多変量正規分布をする時、対数オッズ比と説明変数の間に近似的な線形関係が成り立ちます。 つまり2つの手法が正当性を持つためには、全く同じ前提を必要としているのです。 したがって2つの手法の使い分けは、データの正規性といったことではなく、あくまでも分析の目的を主眼にすべきです。

Page 35: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

一般化線形モデルGLM

• ロジスティック回帰分析において、出現率をロジット変換するのは、説明変数と目的変数の関係を直線状つまり線形にするためです。 このように、目的変数を線形にするための変換関数のことをリンク関数といいます。 そして適当なリンク関数を利用すれば色々な回帰曲線を線形にすることができ、重回帰型モデルつまり線形モデルにすることができます。 そのようにして一般化した線形モデルのことを、「一般化線形モデル(generalized linear model、GLM)」といいます。

Page 36: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

•普通の線形モデルの場合、目的変数の回帰誤差が近似的に正規分布することを前提にして回帰分析を行います。 しかし一般化線形モデルの場合、目的変数の回帰誤差が正規分布ではなく、特殊な分布になることがよくあります。 そのような場合は、最尤法を利用して回帰分析を行うことがあります。

• ロジスティック回帰分析の場合も、ロジットの回帰誤差が特殊な分布になります。 このため回帰誤差が近似的に正規分布するとみなして、重回帰分析と同じように最小2乗法を利用して回帰分析を行う方法と、最尤法を利用した繰り返し近似計算によって回帰分析を行う方法の、2種類の計算法があります。 そしてコンピュータが発達した現在では、最尤法を利用する方法が主流になっています。

Page 37: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

尤度とは

• 判別分析では「尤度(ユウド、likelihood)」という概念が重要になります。 尤度は確率の親戚で、特定の母数の「尤もらしさ」を表す値です。 例えばある母集団があり、その母集団のTCは平均値が200、標準偏差が20の正規分布をしていたとします。 この母集団からひとつのデータをサンプリングした時、それが240である確率は理論的に計算することができます。 この場合、サンプリングしたデータの値は正規分布に従って確率的に変動するので確率変数といいます。 それに対して母集団の平均値と標準偏差は母数ですから、定数であり変動しません。

• しかし我々が研究現場で実際に手にすることができるのは標本集団のデータだけであり、母集団の母数はそれらの値からもっともらしい値をあれこれと推測するしかありません。 したがって我々にとっては確率変数である標本集団のデータの値は変動しない定数であり、母数の方が値が変動する変数のように思えてしまいます。 そこで母数を色々と変化させた沢山の母集団を仮定し、それらの母集団から実際に手にしている標本集団のデータが得られる確率を計算すれば、その確率はそれらの母数のもっともらしさを表す指標になるはずです。 これが尤度です。

BACK to the KL

Page 38: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

• 例えば平均値が200で標準偏差が20である母集団から、240というデータが得られる確率が仮に0.1だとしますと、実際に手にしているデータ240について、これらの母数の尤度は0.1ということになります。 また平均値が250で標準偏差が20である母集団から、240というデータが得られる確率が仮に0.3だとしますと、これらの母数の尤度は0.3ということになります。 この2つの尤度を比べますと後者の方が大きく、実際に手にしている240というデータは後者の母集団からサンプリングした可能性が高いと判断できます。

• このように尤度が最も高い母数を推定する方法を「最尤法(Maximun Likelihood method、ML法)」といい、判別分析はこの最尤法を利用して群を判別します。 ちなみに最小2乗法は最尤法の特別な場合に相当し、データが正規分布する場合、両者の推定値は一致します。

Page 39: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

•回帰曲線は、最尤法を利用した繰り返し近似計算で求めたものです。 このため判別分析から求めたロジスティック曲線と比べると、定数と回帰係数が少し異なっていて、2本の曲線は微妙にずれます。

Page 40: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 41: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ
Page 42: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

•判別分析は、説明変数が近似的に多変量正規分布すると仮定して、最尤法を利用して計算します。 これは、目的変数を0/1のダミー変数にし、その回帰誤差が近似的に正規分布すると仮定して、最小2乗法を利用して計算することに相当します。 このためロジスティック回帰分析の計算結果とよく似たものになりますが、正確には一致しません。

Page 43: 医療統計学 vol - kimuakikimuakilabo.main.jp/statintro_13.pdfロジスティック曲線? •人口予測のための関 数として、1883年にピ エール・フランソア・ベ

演習課題>授業で提示


Recommended