生存関数における信頼区間算出法の比較
佐藤 聖士,浜田 知久馬東京理科大学 工学研究科
Comparison of confidence intervals for survival rate
Masashi Sato, Chikuma HamadaGraduate school of Engineering, Tokyo University
of Science
要旨:
生存割合の信頼区間算出の際に用いられる各変換関数の性能について被覆確率を評価指標として比較した.
キーワード:生存関数,信頼区間,被覆確率,
LIFETEST procedure
2
生存時間解析[1]
• ある基準の時刻からある目的の反応がおきるまでの時間の解析
• 打切りを考慮
A ・・・ 通常のデータB ・・・ 脱落データC ・・・ 観察打切り
生存時間:死亡 = イベント
:生存
A
B
C
患者
観察終了時点時間
0
3背景
生存関数・ハザード関数[1]
• 生存関数:時点 t までイベントが起きない確率
• ハザード関数:時点 t の瞬間でのイベントの発生率
)(th
)(tS
時間(t)
ハザード関数 (指数分布)
0
h(t)生存関数 (指数分布)
時間(t)0
S(t))exp()( ttS λ−= λ=)( th
a=λ
b=λa
b1
4背景
カプラン・マイヤー(積極限)推定量[1]
• 生存関数の推定量
• 生存関数: ( ) ( ) ( ) ( )∏ <−=×−×−=
tt iii
ndndndtS 111ˆ2211 L
の大きさにおける全リスク集合時点におけるイベント総数時点 inid ii :,:
( )tS
0
1
時間
( )111 nd−( ) ( )2211 11 ndnd −⋅−
( ) ( ) ( )332211 111 ndndnd −⋅−⋅−
t
:打切り
:イベント
5背景
信頼区間の算出
• 得られた生存割合 を関数 で変換(以下, を変換関数と
呼ぶ)
• 変換後に区間を計算し,逆変換
( ) ( ) ( )( )tSgtS xg ˆˆ ⎯⎯→⎯
( )( ) ( )( )[ ] ntSgtSg ˆvar96.1ˆ ±
( )( ) ( )( )[ ] ⎟⎠⎞⎜
⎝⎛ ±− ntSgtSgg ˆvar96.1ˆ1
g-1(x)
( )tS ( )xg ( )xg
6背景
LIFETEST procedure で計算可能な5種類の変換[2][3]
名称 変換関数
変換無し(以下,NONTRANS)
対数変換(以下,LOG)
二重対数変換(以下,LOGLOG)
逆正弦変換(以下,ASINSQRT)
ロジット変換(以下,LOGIT)
( ) ( )xxg 1sin−=
( ) ( )( )xxg loglog −=
( ) xxg =
( ) ( )xxg log=
( ) ( )( )xxxg −= 1log
7背景
信頼区間の性能
• 被覆確率:– 信頼区間が真値を含む確率
( ) ( ) ( ) xnxn
x xn
xItC −
=
−⎟⎟⎠
⎞⎜⎜⎝
⎛⋅=∑ πππ 1,
0
( )tC
( )⎪⎩
⎪⎨⎧
=ない信頼区間が真値を含ま
信頼区間が真値を含む
,0
,1,πxI
8背景
背景の整理と本研究の目的
• 背景の整理– 複数ある被覆確率の定量的な評価は不十分
• どの信頼区間を用いればよいか不明確
被覆確率による,各信頼区間の定量的な評価
どの変換関数が好ましいかの考察
目的
9目的
正確(exact)な被覆確率の評価
• 生存時間データにおける生存割合の信頼区間について算出
• 条件– 信頼区間:両側95%水準
– 症例数:50, 100, 200, 400例– 生存割合の真値:0.0 ~ 1.0 by 0.01
10方法
正確な被覆確率の計算
ある時刻 t で生存している人数 x は成功確率 S(t) の二項分布に従う
[ ] ( ) ( )( )
( )( )tSn
tStSxn
xX xnx
,Bin
1Pr
=
−⎟⎟⎠
⎞⎜⎜⎝
⎛== −
生存関数 :S(t)
時間(t)
0S(t)
S(t)
t
症例数 : n
1
生存割合
打切りがない場合
11方法
正確な被覆確率の計算例
x 二項分布の確率 p(x)
95%信頼区間I(x, S(t)) I(x, S(t)) p(x)
下側 上側
0 0.006 0 0 0 01 0.040 0 0.286 0 02 0.120 0 0.448 1 0.1213 0.214 0.015 0.584 1 0.2154 0.250 0.096 0.704 1 0.2515 0.200 0.190 0.810 1 0.2016 0.111 0.296 0.904 1 0.1117 0.042 0.416 0.984 0 08 0.010 0.552 1 0 09 0.002 0.714 1 0 010 0.0001 1 1 0 0
合計
C(t) = 0.899
n = 10, S(t)=0.4
12方法
プログラム
13方法
data data;do n = 50 to 400 by 50;
do trues = 0.0001 to 0.9999 by 0.0001;over=0;
do x = 0.000001,1 to n-1,n-0.000001;prob = pdf('binomial',x,trues,n);se = sqrt(x*(n-x)/(n**3));
l0 = (x/n)-1.96*se;u0 = (x/n)+1.96*se;if l0<trues<u0 then cover= linear+prob;
end;output;end;
end;run;
proc gplot data=data_detail uniform;plot (linear log loglog asinsqrt logit) * trues/vref=0.95;by n;symbol1 i=spline w=4 h=4 c=blue v=none;where 0.05<trues<0.95;
run;
正確な被覆確率の評価
• 各症例数,S(t)の真値で被覆確率を評価
– 被覆確率が95%により近い場合に『性能が良い』とする
• 正確な信頼区間では打切りの考慮が困難
打切りがある場合についてシミュレーションを行い,評価する
その為
被覆確率が95%を上回る
信頼区間の幅が広い
保守的な信頼区間
被覆確率が95%を下回る
信頼区間の幅が狭い
革新的な信頼区間
14方法
シミュレーションによる評価
生存時間分布に指数分布を仮定
観察打切り,脱落の発生
NONTRANS, LOG, LOGLOG, ASINSQRT, LOGIT の95%信頼区間を構成
各信頼区間の被覆確率から性能評価
打切りを含む生存時間データにおけるシミュレーション実験による,信頼区間算出法の評価
シミュレーション目的
15方法
シミュレーション設定
• 条件– 指数分布のパラメータ:
– 症例数:50, 100, 200, 400例– 観察期間:5年– シミュレーション回数:10000回
0.6 0.5, 0.4,=λ
16方法
シミュレーション方法
データ生成
• 指数分布に従う生存時間データを発生
• 観察打切り,脱落データを考慮
信頼区間の構成
• S(t) = 0.1, 0.2, …,0.5において,各信頼区間を構成
被覆の確認
• 構成された各信頼区間に生存割合の真値が含まれているかを調べる
10000回繰り返し,被覆確率を算出
被覆確率による信頼区間の評価 正確な被覆確率に準ずる評価17方法
正確な被覆確率 [n=50, NONTRANS]
平均:93.37%
18結果
正確な被覆確率 [n=50, LOG]
平均:94.31%
19結果
正確な被覆確率 [n=50, LOGLOG]
平均:95.22%
20結果
正確な被覆確率 [n=50, ASINSQRT]
平均:94.61%
21結果
正確な被覆確率 [n=50, LOGIT]
平均:95.60%
22結果
正確な被覆確率 区間[0.05, 0.95]における平均値
90%
95%
100%
50 100 200 400
被覆確率
NONTRANS LOG LOGLOG ASINSQRT LOGIT
症例数 [n]
23結果
シミュレーション結果 [λ=0.5, n=50, 打切り割合:9.6%]
85
90
95
100
0.1 0.2 0.3 0.4 0.5
被覆確率(%)
NONTRANS LOG LOGLOG ASINSQRT LOGIT
生存割合
24結果
シミュレーション結果 [λ=0.5, n=50, 打切り割合:30.6%]
85
90
95
100
0.1 0.2 0.3 0.4 0.5
被覆確率(%)
NONTRANS LOG LOGLOG ASINSQRT LOGIT
生存割合
25結果
理論上での信頼区間(正確な被覆確率)
区間幅が左右対称なNONTRANSは被覆確率が低い
LOGは上側の区間幅が大きい
被覆確率が95%に近い
保守性がある
NONTRANSLOG
ASINSQRT
LOGLOGLOGIT
26結果
シミュレーション結果
• 打切りデータによる影響– 正確な被覆確率と同様の傾向
– LOGIT, LOGLOGの性能が大きく低下するといったことはない
27結果
各信頼区間の評価
• あ
変換方法 評価
NONTRANS •どの条件においても,被覆確率が低い
LOG •生存割合が大きな時に被覆確率が低下
LOGLOG •被覆確率は95%に近い値となる•保守的な結果が得られる
ASINSQRT •被覆確率は95%より低い革新的な信頼区間
LOGIT •被覆確率は95%に近い値となる•保守的な結果が得られる
28まとめ
まとめと今後の課題
• 使用が望ましいと示唆された信頼区間
–LOGLOG,LOGIT• 今後の課題
– 打切りのある場合における,
正確な被覆確率の算出
29まとめ
参考文献
[1] 大橋靖雄,浜田知久馬,生存時間解析 SASによる生物統計,東京: 東京大学出版会, 2005.
[2] Collett D., Modeling Survival Data in Medical Research, London: Chapman & Hall, 1994.
[3] Lachin J. M., Biostatistical Methods: The Assessment of Relative Risks, New York: John Wiley & Sons, 2000.
[4] SAS/STAT User's Guide – the LIFETEST procedurehttp://www.sfu.ca/sasdoc/sashtml/stat/chap37/index.htm(参照:2010-09-03)
30