+ All Categories
Home > Data & Analytics > Multilevel study

Multilevel study

Date post: 01-Jul-2015
Category:
Upload: jinseob-kim
View: 194 times
Download: 6 times
Share this document with a friend
Description:
Multilevel study
30
적접방법 R을이3: Multilevel analysis 원예임의, April 7, 2014 R을이
Transcript
Page 1: Multilevel study

예시흐름개요

통계적 접근해석방법

R을 이용한 보건학 통계분석3주차 : Multilevel analysis

김진섭

서울대학교 보건대학원 예방의학교실 전임의, 유전체역학교실 박사과정

April 7, 2014

김진섭 R을 이용한 보건학 통계분석

Page 2: Multilevel study

예시흐름개요

통계적 접근해석방법

목차

1 예시

2 흐름개요

3 통계적 접근

4 해석방법

ContinuousBinomial

김진섭 R을 이용한 보건학 통계분석

Page 3: Multilevel study

예시흐름개요

통계적 접근해석방법

김진섭 R을 이용한 보건학 통계분석

Page 4: Multilevel study

예시흐름개요

통계적 접근해석방법

김진섭 R을 이용한 보건학 통계분석

Page 5: Multilevel study

예시흐름개요

통계적 접근해석방법

김진섭 R을 이용한 보건학 통계분석

Page 6: Multilevel study

예시흐름개요

통계적 접근해석방법

헷갈리지 말 것.

ANOVA(one-way,two-way, 사후분석), ANCOVA에 신경쓸 필요없다.t-test, ANOVA, ANCOVA → regression의 한 종류...

김진섭 R을 이용한 보건학 통계분석

Page 7: Multilevel study

예시흐름개요

통계적 접근해석방법

예제: T-test VS ANOVA VS regression VS logisticregression

> setwd("/home/secondmath/Dropbox/GSPH/myteaching/orientation/")

> a=read.csv("write.csv")

> t.test(TG~sex,data=a,var.equal=T)$p.value

[1] 5.681867e-08

> summary(aov(TG~sex,data=a))[[1]][1,5]

[1] 5.681867e-08

> summary(glm(TG~factor(sex),data=a))$coefficient[2,4]

[1] 5.681867e-08

> summary(glm(sex~TG,data=a,family=binomial))$coefficient[2,4]

[1] 1.603398e-07

김진섭 R을 이용한 보건학 통계분석

Page 8: Multilevel study

예시흐름개요

통계적 접근해석방법

예제: ANCOVA vs Regression

> summary(aov(TG~BMI+factor(sex),data=a))

Df Sum Sq Mean Sq F value Pr(>F)

BMI 1 426820 426820 62.79 1.76e-14 ***

factor(sex) 1 97264 97264 14.31 0.000176 ***

Residuals 458 3113227 6797

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> summary(glm(TG~BMI+factor(sex),data=a))$coefficients

Estimate Std. Error t value Pr(>|t|)

(Intercept) -55.57365 31.782668 -1.748552 8.103842e-02

BMI 8.48269 1.281874 6.617413 1.023522e-10

factor(sex)1 -42.78491 11.310614 -3.782722 1.756932e-04

김진섭 R을 이용한 보건학 통계분석

Page 9: Multilevel study

예시흐름개요

통계적 접근해석방법

전형적인 논리전개: continuous

예: Y- 혈압, individual- BMI,age,sex. Group- 가족

1 독립성이 깨진다 (가족끼리 관련이 있을 것..)

2 가족이 혈압의 20%를 설명한다.

3 혈압에 영향을 끼치는 BMI, age 등의 베타값.

4 BMI, age 등을 보정한 후에도 가족이 혈압의 10%를 설명한다.

5 유전? or 공유하는 환경의 영향이 있다.

김진섭 R을 이용한 보건학 통계분석

Page 10: Multilevel study

예시흐름개요

통계적 접근해석방법

전형적인 논리전개: Binomial- Median OR

예: Y- 고혈압여부, individual- BMI,age,sex. Group- 가족

1 독립성이 깨진다 (가족끼리 관련이 있을 것..)

2 임의로 두가족을 골랐을 때 두 가족의 고혈압여부의 Oddsratio의 중간값은 2.5이다.

3 혈압에 영향을 끼치는 BMI, age 등의 OR값.

4 BMI, age 등을 보정한 후에도 임의의 두 가족을 골랐을 때고혈압여부의 OR의 중간값은 1.5이다.

5 유전? or 공유하는 환경의 영향이 있다.

김진섭 R을 이용한 보건학 통계분석

Page 11: Multilevel study

예시흐름개요

통계적 접근해석방법

데이터 수준의 접근

SBP=age+sex+BMI+family

1 age, BMI : 연속변수 → OK!!

2 sex: 2 그룹 → OK!!

3 family: 100그룹 넘는데..;;

4 회귀분석에서 99개의 변수가 추가되는 셈..(ex: family1 VSfamily2, family1 VS family3..)

5 family가 얼마나 중요한 변수인지 어떻게 표시하냐???;;;

김진섭 R을 이용한 보건학 통계분석

Page 12: Multilevel study

예시흐름개요

통계적 접근해석방법

Remind

1 Multilevel 분석의 이해를 위해.

2 OLS → GLS → GEE : semi-parametric

3 MLE → LMM → GLMM : parametric

김진섭 R을 이용한 보건학 통계분석

Page 13: Multilevel study

예시흐름개요

통계적 접근해석방법

OLS, GLS, GEE

Y = Xβ + ϵ (1)

var(ϵ) = σ2In : 즉 독립 - 그냥 최소제곱추정.var(ϵ) = σ2Φ : 즉 독립이 아니라면?

GY = GXβ + Gϵ (2)

var(Gϵ) = σ2In : 그후 최소제곱추정: GLSGLS의 binomial, poisson 버전이 GEE.

김진섭 R을 이용한 보건학 통계분석

Page 14: Multilevel study

예시흐름개요

통계적 접근해석방법

Mixed model

Y = Xβ + Zγ + ϵ (3)

var(ϵ) = σ2e In

var(β) = 0, var(γ) = σ2uIn : 즉 Z의 효과는 정해져있지 않다.

σ2 = σ2u + σ2

e (4)

이것의 Binomial 버전이 GLMM.

김진섭 R을 이용한 보건학 통계분석

Page 15: Multilevel study

예시흐름개요

통계적 접근해석방법

Mixed model VS GEE : 공통점

1 Y 의 독립가정이 깨진다- 쌍둥이, 반복측정, 지역변수 등.

예-지역변수: 지역이 100개인데 이걸 그냥 지역변수로 회귀분석에넣으면????

1 변수 1개 넣는것 같지만 실제로는 변수 100개 넣는 셈이다.

2 모형의 문제..

3 그냥 변수의 중요성을 숫자 하나로 표시한다: 지역이 실제로관심값의 몇 %를 설명하는가

김진섭 R을 이용한 보건학 통계분석

Page 16: Multilevel study

예시흐름개요

통계적 접근해석방법

Mixed model VS GEE: 차이점

김진섭 R을 이용한 보건학 통계분석

Page 17: Multilevel study

예시흐름개요

통계적 접근해석방법

Mixed model VS GEE: 차이점

1 GEE : 가족구조 보정만 하면 된다. 관심없음.

2 Mixed model: 가족마다 베타값구하고 싶지만 가족수가100개가 넘어서 포기한다. 단, 가족구조가 얼마나 중요한지는알아야겠다. 그리고 대충으로라도 베타값 구해야겠다.(BLUP)

김진섭 R을 이용한 보건학 통계분석

Page 18: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제: LMM

lmer(formula = TG ~ age + sex + BMI + genecount + (1 | FID),

data = a)

Estimate Std. Error t value

(Intercept) -64.87508809 35.5151689 -1.8266867

age 0.07433259 0.3289602 0.2259622

sex -38.79943548 11.2996407 -3.4336875

BMI 7.99959693 1.2950011 6.1772897

genecount 19.55490362 6.1945517 3.1567907

Groups Name Std.Dev.

FID (Intercept) 38.542

Residual 71.501

김진섭 R을 이용한 보건학 통계분석

Page 19: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제해석: Intraclass correlation

1 TG를 age,sex,BMI,genecount로 보정한 후

2 나머지 부분의 분산을 두 부분으로 나눈다.

3 나머지분산 = Family가 설명하는 분산 + Error의 분산

4 38.52 + 71.52

5 38.52

38.52+71.52= 0.225 : ICC

6 여러가지 보정한 후에도 가족구조가 TG의 22.5%를 설명한다.

김진섭 R을 이용한 보건학 통계분석

Page 20: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제: GEE

(Intercept) age sex BMI genecount

-63.0665181 0.1441694 -39.0676606 7.8280011 19.8533844

gee(formula = TG ~ age + sex + BMI + genecount, id = FID, data = a,

corstr = "exchangeable")

Estimate Naive S.E. Naive z Robust S.E. Robust z

(Intercept) -67.0383013 35.5074038 -1.8880091 35.2098516 -1.9039643

age 0.1358706 0.3308999 0.4106094 0.3913534 0.3471813

sex -39.0532798 11.3072868 -3.4538153 8.1672530 -4.7816909

BMI 8.0470233 1.2961423 6.2084414 1.3778100 5.8404449

genecount 19.2400292 6.1995744 3.1034436 5.9432232 3.2373055

[,1] [,2] [,3] [,4]

[1,] 1.0000000 0.2595847 0.2595847 0.2595847

[2,] 0.2595847 1.0000000 0.2595847 0.2595847

[3,] 0.2595847 0.2595847 1.0000000 0.2595847

[4,] 0.2595847 0.2595847 0.2595847 1.0000000김진섭 R을 이용한 보건학 통계분석

Page 21: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제: GLMM

glmer(formula = hyperTG ~ age + sex + BMI + genecount + (1 |

FID), data = a, family = binomial)

Estimate Std. Error z value Pr(>|z|)

(Intercept) -6.69144274 1.48585490 -4.5034295 6.686557e-06

age 0.01032513 0.01208513 0.8543668 3.929018e-01

sex -1.44261670 0.60870705 -2.3699688 1.778959e-02

BMI 0.18440140 0.05045220 3.6549721 2.572100e-04

genecount 0.23987972 0.23090889 1.0388501 2.988745e-01

Groups Name Std.Dev.

FID (Intercept) 1.1158

김진섭 R을 이용한 보건학 통계분석

Page 22: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

예제해석: 어라???

Family의 분산밖에 안나오네;;;;

1 Binomial변수의 경우 변수를 그냥쓰는게 아니다. (0,1)

2 Logit 함수를 이용하니까..

3 TG처럼 TG의 분산..이라는 말이 없다.

4 Variance of hyperTG: Probability scale

5 Variance of Family: Logistic scale- 1.12

김진섭 R을 이용한 보건학 통계분석

Page 23: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

참고논문

김진섭 R을 이용한 보건학 통계분석

Page 24: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

해결 1

Probability scale 분산 지정해주자. 대충 3.29정도 (π2

3 )

1 ICC= 1.122

1.122+3.292= 0.1

2 부정확하지..

3 설명도 어색하다. 무엇의 10%를 설명하는가?

김진섭 R을 이용한 보건학 통계분석

Page 25: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

해결 2:Median OR

임의로 두 가족 뽑았을 때 위험도 높은 가족 VS 위험도 낮은가족의 OR이 얼마나 되냐?

1 무조건 1이상- 높은 쪽 VS 낮은쪽

2 MOR=1 : 아무렇게나 두 가족 뽑아도 OR 차이가 없다-가족이 설명력이 없다.

3 MOR 크다 : 가족이 설명력이 높다.

4 설명이 용이하다.

5 MOR= exp(√2× 1.122 × 0.6745) = 3.67

6 임의로 두 가족 뽑았을 때 위험한가족 VS 그렇지 않은가족비교하면 OR이 대충 3.67이다.

김진섭 R을 이용한 보건학 통계분석

Page 26: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

GEE

(Intercept) age sex BMI genecount

-5.482288956 0.009646267 -1.348154797 0.151819412 0.192508455

gee(formula = hyperTG ~ age + sex + BMI + genecount, id = FID,

data = a, family = binomial, corstr = "exchangeable")

Estimate Naive S.E. Naive z Robust S.E. Robust z

(Intercept) -5.487666282 1.108553392 -4.9502950 1.13870940 -4.8191982

age 0.008623394 0.009958968 0.8658923 0.01084585 0.7950870

sex -1.302197973 0.534211939 -2.4376055 0.52970684 -2.4583371

BMI 0.153536213 0.038884663 3.9485031 0.04278953 3.5881723

genecount 0.191966682 0.187054963 1.0262582 0.19338008 0.9926911

[,1] [,2] [,3] [,4]

[1,] 1.0000000 0.1966609 0.1966609 0.1966609

[2,] 0.1966609 1.0000000 0.1966609 0.1966609

[3,] 0.1966609 0.1966609 1.0000000 0.1966609

[4,] 0.1966609 0.1966609 0.1966609 1.0000000김진섭 R을 이용한 보건학 통계분석

Page 27: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

참고논문의 main table

김진섭 R을 이용한 보건학 통계분석

Page 28: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

참고

Multilevel 강의록 참조. 예방의학교실 홈페이지 자유게시판에있음.

김진섭 R을 이용한 보건학 통계분석

Page 29: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

분석의 실제

1 R의 Gee와 lme4패키지.

2 주의!!! binomial LMM 즉 GLMM은 R에서 계산안될수도있다. 같은 결과라면 SAS를 믿어야 할 것

김진섭 R을 이용한 보건학 통계분석

Page 30: Multilevel study

예시흐름개요

통계적 접근해석방법

ContinuousBinomial

END

Email : [email protected]: (02)880-2473H.P: 010-9192-5385

김진섭 R을 이용한 보건학 통계분석


Recommended