Multilevel study

Post on 01-Jul-2015

194 views 6 download

description

Multilevel study

transcript

예시흐름개요

통계적 접근해석방법

R을 이용한 보건학 통계분석3주차 : Multilevel analysis

김진섭

서울대학교 보건대학원 예방의학교실 전임의, 유전체역학교실 박사과정

April 7, 2014

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

목차

1 예시

2 흐름개요

3 통계적 접근

4 해석방법

ContinuousBinomial

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

헷갈리지 말 것.

ANOVA(one-way,two-way, 사후분석), ANCOVA에 신경쓸 필요없다.t-test, ANOVA, ANCOVA → regression의 한 종류...

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

예제: T-test VS ANOVA VS regression VS logisticregression

> setwd("/home/secondmath/Dropbox/GSPH/myteaching/orientation/")

> a=read.csv("write.csv")

> t.test(TG~sex,data=a,var.equal=T)$p.value

[1] 5.681867e-08

> summary(aov(TG~sex,data=a))[[1]][1,5]

[1] 5.681867e-08

> summary(glm(TG~factor(sex),data=a))$coefficient[2,4]

[1] 5.681867e-08

> summary(glm(sex~TG,data=a,family=binomial))$coefficient[2,4]

[1] 1.603398e-07

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

예제: ANCOVA vs Regression

> summary(aov(TG~BMI+factor(sex),data=a))

Df Sum Sq Mean Sq F value Pr(>F)

BMI 1 426820 426820 62.79 1.76e-14 ***

factor(sex) 1 97264 97264 14.31 0.000176 ***

Residuals 458 3113227 6797

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> summary(glm(TG~BMI+factor(sex),data=a))$coefficients

Estimate Std. Error t value Pr(>|t|)

(Intercept) -55.57365 31.782668 -1.748552 8.103842e-02

BMI 8.48269 1.281874 6.617413 1.023522e-10

factor(sex)1 -42.78491 11.310614 -3.782722 1.756932e-04

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

전형적인 논리전개: continuous

예: Y- 혈압, individual- BMI,age,sex. Group- 가족

1 독립성이 깨진다 (가족끼리 관련이 있을 것..)

2 가족이 혈압의 20%를 설명한다.

3 혈압에 영향을 끼치는 BMI, age 등의 베타값.

4 BMI, age 등을 보정한 후에도 가족이 혈압의 10%를 설명한다.

5 유전? or 공유하는 환경의 영향이 있다.

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

전형적인 논리전개: Binomial- Median OR

예: Y- 고혈압여부, individual- BMI,age,sex. Group- 가족

1 독립성이 깨진다 (가족끼리 관련이 있을 것..)

2 임의로 두가족을 골랐을 때 두 가족의 고혈압여부의 Oddsratio의 중간값은 2.5이다.

3 혈압에 영향을 끼치는 BMI, age 등의 OR값.

4 BMI, age 등을 보정한 후에도 임의의 두 가족을 골랐을 때고혈압여부의 OR의 중간값은 1.5이다.

5 유전? or 공유하는 환경의 영향이 있다.

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

데이터 수준의 접근

SBP=age+sex+BMI+family

1 age, BMI : 연속변수 → OK!!

2 sex: 2 그룹 → OK!!

3 family: 100그룹 넘는데..;;

4 회귀분석에서 99개의 변수가 추가되는 셈..(ex: family1 VSfamily2, family1 VS family3..)

5 family가 얼마나 중요한 변수인지 어떻게 표시하냐???;;;

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

Remind

1 Multilevel 분석의 이해를 위해.

2 OLS → GLS → GEE : semi-parametric

3 MLE → LMM → GLMM : parametric

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

OLS, GLS, GEE

Y = Xβ + ϵ (1)

var(ϵ) = σ2In : 즉 독립 - 그냥 최소제곱추정.var(ϵ) = σ2Φ : 즉 독립이 아니라면?

GY = GXβ + Gϵ (2)

var(Gϵ) = σ2In : 그후 최소제곱추정: GLSGLS의 binomial, poisson 버전이 GEE.

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

Mixed model

Y = Xβ + Zγ + ϵ (3)

var(ϵ) = σ2e In

var(β) = 0, var(γ) = σ2uIn : 즉 Z의 효과는 정해져있지 않다.

σ2 = σ2u + σ2

e (4)

이것의 Binomial 버전이 GLMM.

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

Mixed model VS GEE : 공통점

1 Y 의 독립가정이 깨진다- 쌍둥이, 반복측정, 지역변수 등.

예-지역변수: 지역이 100개인데 이걸 그냥 지역변수로 회귀분석에넣으면????

1 변수 1개 넣는것 같지만 실제로는 변수 100개 넣는 셈이다.

2 모형의 문제..

3 그냥 변수의 중요성을 숫자 하나로 표시한다: 지역이 실제로관심값의 몇 %를 설명하는가

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

Mixed model VS GEE: 차이점

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

Mixed model VS GEE: 차이점

1 GEE : 가족구조 보정만 하면 된다. 관심없음.

2 Mixed model: 가족마다 베타값구하고 싶지만 가족수가100개가 넘어서 포기한다. 단, 가족구조가 얼마나 중요한지는알아야겠다. 그리고 대충으로라도 베타값 구해야겠다.(BLUP)

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제: LMM

lmer(formula = TG ~ age + sex + BMI + genecount + (1 | FID),

data = a)

Estimate Std. Error t value

(Intercept) -64.87508809 35.5151689 -1.8266867

age 0.07433259 0.3289602 0.2259622

sex -38.79943548 11.2996407 -3.4336875

BMI 7.99959693 1.2950011 6.1772897

genecount 19.55490362 6.1945517 3.1567907

Groups Name Std.Dev.

FID (Intercept) 38.542

Residual 71.501

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제해석: Intraclass correlation

1 TG를 age,sex,BMI,genecount로 보정한 후

2 나머지 부분의 분산을 두 부분으로 나눈다.

3 나머지분산 = Family가 설명하는 분산 + Error의 분산

4 38.52 + 71.52

5 38.52

38.52+71.52= 0.225 : ICC

6 여러가지 보정한 후에도 가족구조가 TG의 22.5%를 설명한다.

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제: GEE

(Intercept) age sex BMI genecount

-63.0665181 0.1441694 -39.0676606 7.8280011 19.8533844

gee(formula = TG ~ age + sex + BMI + genecount, id = FID, data = a,

corstr = "exchangeable")

Estimate Naive S.E. Naive z Robust S.E. Robust z

(Intercept) -67.0383013 35.5074038 -1.8880091 35.2098516 -1.9039643

age 0.1358706 0.3308999 0.4106094 0.3913534 0.3471813

sex -39.0532798 11.3072868 -3.4538153 8.1672530 -4.7816909

BMI 8.0470233 1.2961423 6.2084414 1.3778100 5.8404449

genecount 19.2400292 6.1995744 3.1034436 5.9432232 3.2373055

[,1] [,2] [,3] [,4]

[1,] 1.0000000 0.2595847 0.2595847 0.2595847

[2,] 0.2595847 1.0000000 0.2595847 0.2595847

[3,] 0.2595847 0.2595847 1.0000000 0.2595847

[4,] 0.2595847 0.2595847 0.2595847 1.0000000김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제: GLMM

glmer(formula = hyperTG ~ age + sex + BMI + genecount + (1 |

FID), data = a, family = binomial)

Estimate Std. Error z value Pr(>|z|)

(Intercept) -6.69144274 1.48585490 -4.5034295 6.686557e-06

age 0.01032513 0.01208513 0.8543668 3.929018e-01

sex -1.44261670 0.60870705 -2.3699688 1.778959e-02

BMI 0.18440140 0.05045220 3.6549721 2.572100e-04

genecount 0.23987972 0.23090889 1.0388501 2.988745e-01

Groups Name Std.Dev.

FID (Intercept) 1.1158

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제해석: 어라???

Family의 분산밖에 안나오네;;;;

1 Binomial변수의 경우 변수를 그냥쓰는게 아니다. (0,1)

2 Logit 함수를 이용하니까..

3 TG처럼 TG의 분산..이라는 말이 없다.

4 Variance of hyperTG: Probability scale

5 Variance of Family: Logistic scale- 1.12

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

참고논문

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

해결 1

Probability scale 분산 지정해주자. 대충 3.29정도 (π2

3 )

1 ICC= 1.122

1.122+3.292= 0.1

2 부정확하지..

3 설명도 어색하다. 무엇의 10%를 설명하는가?

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

해결 2:Median OR

임의로 두 가족 뽑았을 때 위험도 높은 가족 VS 위험도 낮은가족의 OR이 얼마나 되냐?

1 무조건 1이상- 높은 쪽 VS 낮은쪽

2 MOR=1 : 아무렇게나 두 가족 뽑아도 OR 차이가 없다-가족이 설명력이 없다.

3 MOR 크다 : 가족이 설명력이 높다.

4 설명이 용이하다.

5 MOR= exp(√2× 1.122 × 0.6745) = 3.67

6 임의로 두 가족 뽑았을 때 위험한가족 VS 그렇지 않은가족비교하면 OR이 대충 3.67이다.

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

GEE

(Intercept) age sex BMI genecount

-5.482288956 0.009646267 -1.348154797 0.151819412 0.192508455

gee(formula = hyperTG ~ age + sex + BMI + genecount, id = FID,

data = a, family = binomial, corstr = "exchangeable")

Estimate Naive S.E. Naive z Robust S.E. Robust z

(Intercept) -5.487666282 1.108553392 -4.9502950 1.13870940 -4.8191982

age 0.008623394 0.009958968 0.8658923 0.01084585 0.7950870

sex -1.302197973 0.534211939 -2.4376055 0.52970684 -2.4583371

BMI 0.153536213 0.038884663 3.9485031 0.04278953 3.5881723

genecount 0.191966682 0.187054963 1.0262582 0.19338008 0.9926911

[,1] [,2] [,3] [,4]

[1,] 1.0000000 0.1966609 0.1966609 0.1966609

[2,] 0.1966609 1.0000000 0.1966609 0.1966609

[3,] 0.1966609 0.1966609 1.0000000 0.1966609

[4,] 0.1966609 0.1966609 0.1966609 1.0000000김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

참고논문의 main table

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

참고

Multilevel 강의록 참조. 예방의학교실 홈페이지 자유게시판에있음.

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

분석의 실제

1 R의 Gee와 lme4패키지.

2 주의!!! binomial LMM 즉 GLMM은 R에서 계산안될수도있다. 같은 결과라면 SAS를 믿어야 할 것

김진섭 R을 이용한 보건학 통계분석

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

END

Email : secondmath85@gmail.comOffice: (02)880-2473H.P: 010-9192-5385

김진섭 R을 이용한 보건학 통계분석