SNU Data Mining Center SNUDM-TR-2015-01
์ด๋ค ์์์ด ๋ฒ๋ฅ ์ด ๋๋๊ฐ:
๋ฐ์ดํฐ ๋ถ๊ท ํ์ ๊ณ ๋ คํ ์์ ๊ฒฐ๊ณผ ์์ธก
๋ฐ์์
๊ฐํ์ฑ
pilsung [email protected]
์กฐ์ฑ์ค
April 14, 2015
Abstract
๋ฒ์ ์ ์ ์ ๊ฐ ๊ฐ์ธ๊ณผ ์ฌ๋ฌ ์ด์ต์ง๋จ์ ํฌ๊ณ ์์ ์ํฅ์ ๋ฏธ์น๋ค. ์ด ๋ ๊ฐ๊ฐ์ธ ๋๋ ์ด์ต์ง๋จ์ด
๋ฒ์ ์์ ํ๊ฑฐ๋ ์ ์ํ๋ ์์์ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ ์ ์์ธกํ ์ ์๋ค๋ฉด, ์์์ ์กฐ์ํ ํต๊ณผ ๋ด์ง ํ๊ธฐ๋ฅผ
์ํด ์ ๊ทน์ ์ธ ํ๋์ ์ทจํ๊ฑฐ๋, ์์์ ์งํ์ ์์ ์ฌ์ ์ ๋๋น๋ฅผ ํ ์ ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๋ฐ์์,
์์์ ์ํ๊ฒฝ๋ฑ์์๊ณผ๊ด๋ จํ๊ฐ์ข ๋ฉํ๋ณ์๋ฅผ๋์ถํ์ฌ,๋ํ๋ฏผ๊ตญ๊ตญํ๋ฅผ๋์์ผ๋ก์์์๊ฒฐ๊ณผ๋ฅผ
์์ธกํด๋ณธ๋ค. ์ฌ์ฉ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ก์ง์คํฑ ํ๊ท๋ถ์(logistic regression), SVM, k-NN, ๋์ด๋ธ ๋ฒ ์ด์ฆ
(Naive Bayes), ์์ฌ๊ฒฐ์ ๋๋ฌด(decision tree) ๋ฑ ๋ค์ฏ ๊ฐ์ง์ด๋ค. ๋ฒ๋ฅ ์์ด ๋ฌด์กฐ๊ฑด ํต๊ณผ๋์ง ์๋๋ค๋
๊ธฐ์ค ๋ชจ๋ธ์ ๋ํด ๋ค์ฏ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ ์ ํ๋๊ฐ 4% ์ด์ ํฅ์ ๋์์ง๋ง, ๋ก์ง์คํฑ ํ๊ท๋ถ์๊ณผ
SVM๋ฑํน์ ์๊ณ ๋ฆฌ์ฆ์๊ฒฝ์ฐ์ฌํ์จ์ด๋ฎ์๋ค.ํํธ๋ฐ์ดํฐ์๋ถ๊ท ํ์ํด์ํด์คํ์๋์ด์ ๋ชจ๋ธ์
๋นํด ์ ํ๋์ ์ ๋ฐ๋๋ฅผ ํฌ์ํจ์ผ๋ก์จ ์ฌํ์จ์ ํฅ์์ํฌ ์ ์์๋ค.
1 ์๋ก
์ ๋ฒ์ ์ ๋ฒ๊ตญ๊ฐ์์ ์ค์ํ ์ญํ ์ ํ๋ค. ๋ฒ์ด ์ด๋ค ๋ฐฉํฅ์ผ๋ก ์ ์ ๋๋๋์ ๋ฐ๋ผ ์ด์ต์ง๋จ์๊ฒ ๋ผ์น๋
์ํฅ์ด ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ ๋ง์ ๋จ์ฒด๊ฐ ๋ก๋น๋ฅผ ํตํด ํน์ ์์์ ์ ๋ฒ์ ์ด๊ตฌํ๊ฑฐ๋ ๋ฐ๋ชจ๋ฅผ ํตํด ๋ฐ๋ํ๋
๋ฑ ๋ค์ํ ํ๋์ ์ทจํ๊ณค ํ๋ค. ์ ๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก ๋ฐ์์์ ์ํด ์์์ด ์ ์๋ ํ, ์์ํ ์ฌ์ฌ, ์ฒด๊ณ์
๊ตฌ ์ฌ์ฌ, ๋ณธํ์ ์ฌ์, ์ ๋ถ ์ด์ก, ๊ณตํฌ์ 6 ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ์ด๋ฃจ์ด์ง๊ฒ ๋๋๋ฐ, ๊ฐ ๋จ๊ณ๋ฅผ ๊ฑฐ์น ๋๋ง๋ค ํด๋น
์์์ ๋ํ ๋ ผ์๊ฐ ์ด๋ค์ง๊ณ ์์์ ๋์์ด ๋ฐ์๋๊ฑฐ๋ ๊ทธ ์์ฒด๊ฐ ํ๊ธฐ๋๋ ๊ฒฝ์ฐ๋ ์๋น์๋ค. ์ 18๋
๊ตญํ์๊ฒฝ์ฐ,๊ฒฐ์์,๋์์,์ถ์์๊ตฌ์๋ฑ์์ ์ธํ๊ณ ์ฒ ํ๋์ง์์๋ฒ๋ฅ ์์คํต๊ณผ๋์์์ 17.4%์
๋ถ๊ณผํ๊ณ , ๊ทธ ์ค ์์ํ๊ฒ ์์์ด ๋ฐ์ํ ๋ฒ๋ฅ ์๋ง ๊ณ ๋ คํ๋ค๋ฉด ํต๊ณผ์จ์ 5.91%์ ๊ทธ์น๋ค. ๋ฟ๋ง ์๋๋ผ ๊ฐ
์์์ํต๊ณผ์ฌ๋ถ๊ฐ๊ฒฐ์ ๋๊ธฐ๊น์ง์์๋๋์๊ฐ์์๋นํ๊ธธ๋ค.์ผ๋ก๋ก, 18๋๊ตญํ์์๋ค์ด์ฒ๋ฆฌ์ ์ฐจ๋ฅผ
๊ฑฐ์น๋๋ฐ๋ ํ๊ท ์ ์ผ๋ก 470์ผ์ด์๋ค.
๊ทธ๋ฐ๋ฐ ๋ง์ฝ ์์์ด ๋ฐ์๋๋ ์์ ์์ ์์ ํต๊ณผ์ ๊ฐ๋ฅ์ฑ(likelihood)์ ์์ธกํ ์ ์๋ค๋ฉด ์ด๋จ๊น?
์์์ ํต๊ณผ ๊ฐ๋ฅ์ฑ์ด ๋์ ๊ฒฝ์ฐ ๊ฐ ์ด์ต ๋จ์ฒด๋ณ๋ก ์กฐ๊ธ ๋ ์ ๊ทน์ ์ผ๋ก ํต๊ณผ๋ ์ฒ ํ๋ฅผ ์ง์งํ ์ ์๊ณ ,
์์ ํต๊ณผ ๊ฐ๋ฅ์ฑ์ด ๋ฎ์ ๊ฒฝ์ฐ ์๊ฐ๊ณผ ๋น์ฉ์ ํฌ์๋ฅผ ์ค์ผ ์ ์๋ค.
ํํธ ์ ์น ์ ๋ฌธ๊ฐ๊ฐ ์์์ ๊ฒฐ๊ณผ๋ฅผ ํ๋ํ๋ ์์ธกํ ์๋ ์์ง๋ง ๊ทธ๋ฆผ 1์์ ๋ณด๋ฏ 18๋ ๊ตญํ์์ ๋ฐ
์๋ ์์์ ๋งคํด 3,700 ๊ฑด์ ์ด๊ณผํ๊ณ ์ด๋ 1๋๋ถํฐ ๊พธ์คํ ์ฆ๊ฐ๊ฐ ๋์ด์จ ์์น์ด๋ค. ํ์ฌ 19๋ ๊ตญํ์
๊ฒฝ์ฐ์๋ ์์ ๋ฐ์ ๊ฑด์๊ฐ ํด๋ง๋ค 5,000๊ฑด์ ์ํํ ์ ๋ง์ธ๋ฐ, ์ด์ฒ๋ผ ๋ง์ ์์์ ์ ๋ฌธ๊ฐ๊ฐ ์ผ์ผ์ด ๊ฐ
์ ํ๋๋ฐ๋ ๋ง์ ์๊ฐ๊ณผ ๋น์ฉ์ด ์์๋ ๊ฒ์ด๋ค. ๋ง์ผ ๊ฐ์ ํ๋ ๊ณผ์ ์ ์๋ํํ ์ ์๋ค๋ฉด, ์ ์น ์ ๋ฌธ๊ฐ๋
๋ณด๋ค ํต๊ณผ ํ๋ฅ ์ด ๋์ ์์์ ๋ํด ์ง์ค์ ์ผ๋ก ๊ฒํ ํ ์ ์๋ค. ๋ฟ๋ง ์๋๋ผ, ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๊ด
์ ์ธ ์์ธก์ ํ๋ฉด ์ฃผ๊ด์ฑ์ ๋ฐฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ์, ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ์์์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ ๊ฒ์ ์ ์น
์ ๋ฌธ๊ฐ์ ์๊ฒฌ์ ๋ณด์ ๋ด์ง๋ ๊ฐํํ๋ ํจ๊ณผ๋ฅผ ๋ณ์ ์ ์๋ค.
์ด๋ฐ ๊ฐ๋ฅ์ฑ์ ๋๊ณ ์ด๋ฏธ ๋ช๋ช ์ฐ๊ตฌ์๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ ์ฒ๋ฆฌ ๊ณผ์ ์ ํ์ํด ๋ณด๊ธฐ๋ ํ์๋ค.
์์์๋ฌธ๊ธฐ๋ฐ์ผ๋ก๋ฏธ๊ตญ์ํ์์๊ฐ์์์ํฌํ์์ธก์์ํํ [?]๋์ด์์ ๋ชจ๋ธ(ideal point model)์
ํ ์คํธ๋ฅผ ๋์ ํ์ฌ 106-111๋ ์ํ์ ํฌํ ๋ฐ์ดํฐ์ ๋ํด 89%์ ์์ธก ์ ํ๋๋ฅผ ์ป์ด ํ ์คํธ ๊ธฐ๋ฐ ์์ธก์
๊ฐ๋ฅ์ฑ์ ํ์ธํด์ฃผ์์ผ๋ฉฐ, [4]๋ ์์์ ๊ฐ์ข ๋ฉํ๋ณ์์ ์๋ฌธ์ ํ์ฉํ์ฌ 109-110๋ ์ํ์์ ์์์ด
์์ํ๋ฅผ ํต๊ณผํ ์ง์ ๋ํด ํ๊ท 90.1%์ ์์ธก ์ ํ๋๋ฅผ ์ป์๋ค. ๊ทธ๋ฌ๋ ์ด๋ค์ ๋ด์ฌ์ ์ผ๋ก ๋ฒ์ฃผ ๋ถ๊ท ํ
(class imbalance)๋ฌธ์ ์ด๋ค.์ค์ ๋ก [?]์์๋ 15%์ํ๊ฐ yea๋ฅผ๋ํ๋๊ณ [4]๋ 12.6%์์์์ดํต๊ณผํ์ง
๋ชปํ์ฌ, ๋ ์ฐ๊ตฌ ๋ชจ๋ ์ด์ง ๋ถ๋ฅ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ๋ 50% ์ ํ๋๋ฅผ ๊ธฐ์ค ๋ชจ๋ธ๋ก ์ผ์ง ์๊ณ 85%,
87.4%์ ๊ธฐ์ค์ผ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ์ฌ ๊ฐ 4%, 3%์ ์ ํ๋ ํฅ์์ ์ด๋ฃจ์๋ค. ํ์ง๋ง ๋ฒ์ฃผ ๋ถ๊ท ํ
๋ฌธ์ ์์ ์ ๋ฐ๋๋ ์ฌํ์จ์ ๊ณ ๋ คํ์ง ์๊ณ ์ ํ๋๋ง ๊ณ ๋ คํ๋ค๋ ํ๊ณ์ ์ด ์๋ค.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
0
1,000
2,000
3,000
4,000
254334312300
843
339219190158190194205360364654814
2,148
3,737
n(b
ills
)p
eryea
r
๊ทธ๋ฆผ 1: ๊ตญํ ๋์ ๋ณ๋ก ์ฆ๊ฐํ๋ ์์ ๋ฐ์ ๊ฐ์
๋ณธ ์ฐ๊ตฌ์์๋ ์์๊ณผ ๊ด๋ จํ ๊ฐ์ข ๋ฉํ(meta) ๋ณ์๋ฅผ ๋์ถํ์ฌ, ๋ํ๋ฏผ๊ตญ ๊ตญํ๋ฅผ ๋์์ผ๋ก ์์์
๊ฒฐ๊ณผ๋ฅผ ์์ธกํด๋ณธ๋ค. ํนํ, ์์์ ํต๊ณผ ์ฌ๋ถ๋ ์ ํ์ ์ธ ๋ถ๊ท ํ ๋ฐ์ดํฐ(imbalanced data)๋ก, ๋ถ๊ท ํ์ฑ์
๊ณ ๋ คํ ํ์ต์ ํ๋ ๊ฒ์ ์ฃผ์์ ์ผ๋ก ์ผ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ 2008๋ ๋ถํฐ 2012๋ ์ ๊ฑธ์ณ 18๋ ๊ตญํ์์
๋ฐ์๋๊ณ ์์๋ค์ ์ํด ์ฒ ํ๋์ง ์์ ์ด 13,405๊ฐ์ ๋ฒ์์ด ์ฌ์ฉ๋์์ผ๋ฉฐ ์ฌ์ฉ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ก์ง์คํฑ
ํ๊ท๋ถ์(logistic regression), SVM, k-NN, ๋์ด๋ธ ๋ฒ ์ด์ฆ(Naive Bayes), ์์ฌ๊ฒฐ์ ๋๋ฌด(decision tree)
๋ฑ ๋ค์ฏ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์๋ค. ๋ฐ์์, ์์ํ, ์ ์ ์๊ธฐ, ํ๊ฒฝ ๋ฑ์ ๊ดํ 11๊ฐ์ง ์ข ๋ฅ์ ๋ณ์๋ฅผ
์ฌ์ฉํ์๋๋ฐ ๋ํ๋ฐ์์, ์๊ด์์ํ ๋ฑ์ ๋ฒ์ฃผํ(categorical) ๋ณ์๋ฅผ ์ด์ง ๋ณ์ํ์ํค๋ฉด ์ด 372๊ฐ์
๋ณ์๊ฐ ๋๋ค. ํํธ ์์ ์์ธก ๋ฌธ์ ์๋ ๋ฐ์ดํฐ ๋ถ๊ท ํ์ด ์กด์ฌํ๋ฏ๋ก, ์์ ๋ฒ์ฃผ ๋ฐ์ดํฐ์ ๋น์ฉ์ ํฌ๊ฒ
์ค์ ํจ์ผ๋ก์จ ๋ฐ์ดํฐ ๋ถ๊ท ํ์ ํด์ํ ํ ๋ก์ง์คํฑ ํ๊ท๋ถ์๊ณผ SVM์ ์ด์ฉํด ์ต์ข ์ ์ธ ์์ธก ๊ฒฐ๊ณผ๋ฅผ
๋์ถํ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค. ๋จผ์ 2์ฅ์์๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ฅผ ์ดํด๋ณธ ํ, 3์ฅ์์ ์ ๊ทผ ๋ฐฉ๋ฒ์ ๋ค๋ฃฌ๋ค.
4์ฅ์์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ๊ณ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ค๋ฃฌ ํ, 5์ฅ์์ ๊ฒฐ๋ก ์ ๋ด๋ฆฐ๋ค.
2
2 ๊ด๋ จ์ฐ๊ตฌ
2.1 ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ํ ๋ถ์
๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ํ์ ํน์ฑ์ ์ดํดํ๋ ค๋ ์๋๋ ๊ตญ๋ด์ธ์์ ๋ค์ํ๊ฒ ์์๋ค. ๋ฏธ๊ตญ ์ํ์ ๊ฒฝ์ฐ, ์์
์ ํฌํ ๊ธฐ๋ก์ ์ด์ฉํด ์ํ์ ํธํฅ์ฑ(polarity)๋ฅผ ํ์ ํ๋ค๋ ๊ฐ [?, 3, ?] ๋น๋ก ์ด ์์๋ค์ ํฌํ์ ์ผ๋ง๋
์ํฅ์ ๋ฏธ์น๋์ง [?] ๋ฑ ํฌํ ๊ธฐ๋ก(roll call)์ ๋ํ ๋ค์ํ ์ฐ๊ตฌ๊ฐ ์งํ๋์๋ค. ํนํ [?]์์ ์ ์ํ D-
NOMINATE(Dynamic Nominal Three-step Estimation)์ ์ฒ์์ผ๋ก ๋ค์ฐจ์์ฒ๋๋ฒ(MDS, multidimen-
sional scaling)์ ์ด์ฉํ์ฌ ์ํ ์์๋ค์ ์ด๋ฐ์ฌ๋ก๊ธฐ๋ฅผ ๊ณต๊ฐ์์ ์ ์ฌํ ์ฐ๊ตฌ๋ก, ์ ์น์ธ ํ๊ฒฐ ํ๋์
๋ํ ์ฐ๊ตฌ์ ๊ธฐ์ ์ด ๋์๋ค. ์ดํ ์ด๋ค์ [?]์์ DW-NOMINATE(Dynamic, Weighted NOMINATE)
๋ฅผ ์ ์ํ์ฌ ์ด๋ฐ์ฌ๋ก๊ธฐ์ ๋์ ์ธ ๋ณํ๋ฅผ ๊ด์ฐฐํ ์ ์๋ ์ฐ๊ตฌ๋ก ํ์ฅํ์๋ค. ์ด ์ฐ๊ตฌ๋ฅผ ํตํด 1970๋ ๋
์ดํ ๋ฏธ๊ตญ ์๋น ๊ฐ ์ด๋ฐ์ฌ๋ก๊ธฐ์ ๊ฑฐ๋ฆฌ๊ฐ ์ ์ ๋ฉ์ด์ก๋ค๋ ๊ฒ๊ณผ, ๋ฏธ๊ตญ ๋ฏผ์ฃผ๋น์ด โ์ผ์ชฝโ์ผ๋ก ๊ธฐ์ฐ๋ ๊ฒ๋ณด๋ค
๊ณตํ๋น์ด โ์ค๋ฅธ์ชฝโ์ผ๋ก ๊ธฐ์ฐ๋ ๊ฒ์ด ๋ ์ฌํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ ์ ์๊ฒ ๋์๋ค. [2]๋ ๋ฏธ์ํ 1๋๋ถํฐ 110
๋๊น์ง์ ํฌํ ๋ฐ์ดํฐ์ ๋ค์ธต ์ปค๋ฎค๋ํฐ ํ์ง(multislice community detection)๋ฅผ ์ ์ฉํ์ฌ ์๊ฐ์ ๋ฐ๋ผ
์ ์น์ธ ์ปค๋ฎค๋ํฐ์ ํ์ฑ์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ์กฐ์ฌํ์์ผ๋ฉฐ ์ด๋ฅผ ํตํด ๋ฏธ์ํ 15๋, 31๋, 37๋, 74๋์
์ ์น์ธ๋ค์ ํฌํ ์์์ ํฐ ๋ณํ๊ฐ ์์๋ค๋ ์ ์ ๊ด์ฐฐํ ์ ์๊ฒ ๋์๋ค.
๋, ์์์ ๋ณดํต ํ ๋ช ์ ๋ฐ์์(sponsor)๊ฐ ์ ์ํ์ง๋ง, ์์์ ํ๊ฒฐ์ ์์ ์์์ ๊ฐํ๊ฒ ์ฐฌ์ฑํ์ฌ
ํ์ ์ค์ด์ฃผ๊ณ ์ถ์ ์์์ ๊ฒฝ์ฐ ๊ณต๋๋ฐ์์(cosponsor)๊ฐ ๋๊ธฐ๋ ํ๋ค. ๋ฐ๋ผ์ ์์์ ๋ ์ธ๋ฌผ ๊ฐ ๊ณต๋
๋ฐ์๊ฐ ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ์ํ ๊ฒฝ์ฐ, ๋ ์์ ์ฌ์ด์ ์ด๋ฐ์ฌ๋ก๊ธฐ ์ ์ฌ๋๊ฐ ๋๋ค๊ณ ํ ์ ์๋ค. [?]๋ ์ด ๊ฐ์ ์
๊ธฐ๋ฐ์ผ๋ก ๊ณต๋ ๋ฐ์ ๋ฐ์ดํฐ๋ก ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ถํ์๋ค. ์ด ์ฐ๊ตฌ์์๋ ๊ณต๋ ๋ฐ์ ๋น๋์ ๊ฐ ์์์ ๋ฐ์์
์๋ฅผ์ด์ฉํ์ฌ์ฐ๊ฒฐ๋(connectedness)๋ผ๋์๋ก์ด์งํ๋ฅผ์ ์ํจ์ผ๋ก์จ์์๊ฐ์ ์ฌ๋๋ฅผ๊ณ์ฐํ์๋ค.์ด
์งํ์ ๊ฐ์ด ๋์์๋ก ์ ๋ฒ์์ ํน์ ์์์ ์ํฅ๋ ฅ์ด ๋๋ค๊ณ ํ ์ ์์ผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๋ฅผ ํตํด ์ด๋ค
์์์ ์์์ด ๋ ํต๊ณผ๋ ํ๋ฅ ์ด ๋์์ง ์์ธกํ์๋ค.
๋ฏธ๊ตญ ์ํ์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ํ๋ฏผ๊ตญ ๊ตญํ๋ ์์ฑ๋๋ ๋ฐ์ดํฐ๊ฐ ์๋นํ ๋ง์ผ๋ฉฐ ์์์ ์๋ฌธ, ํ์๋ก,
์์์ ํ์ ์ถ๊ฒฐ ๊ธฐ๋ก, ์์์ ๋ํ ๋ณธํ์ ํฌํ ๊ธฐ๋ก ๋ฑ์ด ๋ชจ๋ ์ ์ฌ์ ์ธ ์ฐ๊ตฌ ๋์์ด๋ค. [?]์ [?]์
๋ง์ฐฌ๊ฐ์ง๋ก ๊ณต๋๋ฐ์ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ถํ์๋ค. ์ด ์ฐ๊ตฌ๋ฅผ ํตํด ํ๋๋ผ๋น์ด ์ผ๋น์ด์์ ๋น์ ์ด๋ฆฐ์ฐ๋ฆฌ๋น
์์ฅ ์์๋ค๋ณด๋ค ๊ฐํ ์ํฅ๋ ฅ์ ํ์ฌํ๋ ๊ฒ์ผ๋ก ๋ถ์๋์๋ค. ๊ทธ ์ธ์๋ ๋ฒ์์ ์ค์๋ ์งํ๋ฅผ ์ ์ํ๊ณ
์์ ๊ฐ ํฌํ ์ ์ฌ๋ ์งํ๋ฅผ ๋ง๋ค์ด ๊ตญํ๋ฅผ ์๊ฐํ ํ๋ ๋ฑ์ ์๋๊ฐ ์์๋ค [?, ?]. ์ด ์ฐ๊ตฌ์์๋ 18
๋ ๊ตญํ ๋ณธํ์ ํ๊ฒฐ์ ์์ ๋ ์ด 2,555๊ฑด์ ๋ฒ์์ ๋ถ์ํ์ฌ ์์ ๋ฒ์์ผ์๋ก ํ๋๋ผ๋น ์์ ์์๋ค์
์์ง๋ ฅ์ด๋ฏผ์ฃผ๋น์์์์๋ค๋ณด๋ค๊ฐํ๋ค๋์ ๊ณผ,์ด์ ์์๋ค์ผ์๋ก๋น๋ก ์๋ถํฉํ๋ํฌํ๋ฅผ๋ง์ดํ๋ค๋
์ ๋ฑ์ ๋ฐ๊ฒฌํ์๋ค.
์ด๋ ๊ฒ ๊ณ์ฐ์ ์นํ(computational politics) ์์ญ์์๋ ๊ทธ๋์ ์ค๋ช ์ (descriptive) ์ฐ๊ตฌ๊ฐ ํ๋ฐํ์ผ
๋ฉฐ, ๊ทธ๋ฅผ ํ ๋๋ก ์ ๋ถ์ ์ํ ์์คํ , ์ ์ฑ ๋ฑ์ ๋ํ ์ดํด๊ฐ ์ฆ์ง๋์๋ค.
2.2 ์์ ๊ฒฐ๊ณผ ์์ธก
์์์ ๊ฒฐ๊ณผ ์์ธก์ ๊ดํด์๋ ๋ฏธ์ํ๋ฅผ ๋์์ผ๋ก ํ๋ ์ฐ๊ตฌ๊ฐ ๊ฐ์ฅ ํ๋ฐํ๋ค. ๊ทธ ์ค์์ ๋จผ์ , ์ด์์
๋ชจ๋ธ(ideal point model) [?] ๊ณผ ๋ฒ ์ด์ง์ ์ถ๋ก (Bayesian inference) ๊ธฐ๋ฐ์ ์์ฑ์ (generative) ์๊ณ ๋ฆฌ์ฆ
์ธ IPTM(ideal point topic model)์ ์์ ์๋ฌธ์ ์ด์ฉํด ๋ฏธ์ํ์์ ๊ฐ ์์์ ํฌํ๋ฅผ ์์ธกํ๋ค [?].
์ด ์ฐ๊ตฌ์์๋ ๊ฐ ์์ u๋ฅผ ์ด์์ Xu์ผ๋ก ๋งคํ์ํค๊ณ , ๊ฐ ์์ d๋ ๋์ด๋(difficulty) Ad์ ์ฐจ๋ณ๋ ฅ
(discrimination) Bd์ ์กฐํฉ์ผ๋ก ๋ํ๋๋ค. Xu, Ad, Bd๋ ๊ฐ๊ฐ ๊ฐ์ฐ์์ ์ ํ๋ถํฌ(Gaussian prior)๋ฅผ ์
3
์ฉํ์ฌ ์ถ์ ํ๋ฉฐ, ํนํ Ad, Bd์ ์์ ์๋ฌธ๊ณผ ํฌํ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ sLDA(supervised LDA) ํ ํฝ ๋ชจ๋ธ์
์์ฉํด์์ป์๋ค.์ด๋ํฌํ๊ฒฐ๊ณผ๋์ 1์๋๋คํจ๊ณผ๋ก์ง์คํฑํ๊ท๋ชจํ(logistic regression with random
effects) ฯ(t)์์ด์ฉํด๋ถ๋ฅํ์ผ๋ฉฐ, 64๊ฐ์ํ ํฝ์์ด์ฉํ๋ถ๋ฅ์ ํ๋๋๊ธฐ์ค๋ชจ๋ธ 85%์๋นํด 4%ํฅ์๋
89%๋ฅผ ์ป์๋ค.
p(vud = 1) = ฯ(xubd + ad) (1)
๋ค์์ผ๋ก, ์์ ์๋ฌธ์ ๋น๋กฏํ์ฌ ๊ฐ์ข ๋ฉํ๋ณ์๋ฅผ ์ด์ฉํด ์์์ด ์์ํ์์ ํต๊ณผ๊ฐ ๋ ์ง ์์ธกํ๋
์ฐ๊ตฌ๋ ์๋ค [4]. ์ด ์ฐ๊ตฌ์์๋ ๋ก์ง์คํฑ ํ๊ท๋ชจํ์ ์ด์ฉํ์ผ๋ฉฐ, ๋ฉํ๋ณ์๋ง ์ด์ฉํ ๊ฒฝ์ฐ ์ด 3,731๊ฐ
๋ณ์๋ฅผ ์ด์ฉํด 11.8% ์ค๋ฅ์จ, ํ ์คํธ ํน์ง๊น์ง ํ์ฉํ ๊ฒฝ์ฐ 28,411๊ฐ ๋ณ์๋ฅผ ์ด์ฉํด 9.6%์ ์ค๋ฅ์จ์
์ป์ด์ ๊ธฐ์ค ๋ชจ๋ธ ๋๋น ์ฝ 3%์ ์ ํ๋ ํฅ์์ ํ๋ค. ํ ์คํธ์์๋ ํด๋น ์์์ ์นดํ ๊ณ ๋ฆฌ, ์์ํ์ ์ ์ฅ
์ ์ถ์ ํ ํ๋ก์ ํฌํ(proxy vote), ์์์์ ์ถ์ถํ BOW(bag of words) ๋ฑ ์ธ ๊ฐ์ง ๊ด์ ์์ ํน์ง์
์ถ์ถํ๋ค.
๊ทธ ์ธ์๋ ์์๊ณผ ์์์ผ๋ก ๊ตฌ์ฑ๋ ์ด์ง ๊ทธ๋ํ(heterogeneous graph) ์์์ ๋๋ค์ํฌ(random
walks) ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ณผ๊ฑฐ ํฌํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ํฌํ ์์ธก ์ฐ๊ตฌ๋ ์์์ผ๋ฉฐ [?], ์ต๊ทผ์๋ ๋ฏธ์ํ ๋ฐ 50
๊ฐ ์ฃผ์ ์์์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํจ๊ณผ ๋์์ ์๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ์์์ ์ํฅ์ ๋ฐ์๋งํ ์ฐ์ ๋ถ์ผ๋ฅผ ์ถ์ ํ๋
์คํํธ์ ๋ ๋ฑ์ฅํ๋ค. ์ด ์คํํธ์ ์ ์์ ๋ค์ ์์ธก ์ ํ๋๊ฐ ์ฝ 93%์ ์ ํ๋์ ์ด๋ฅธ๋ค๊ณ ํ๋ค [?].
๊ทธ๋ฌ๋๊ธฐ์กด์์์๊ฒฐ๊ณผ์์ธก์ฐ๊ตฌ๋ค์์์์์ธก๋ฌธ์ ๊ฐ์ ํ์ ์ธ๋ฐ์ดํฐ๋ถ๊ท ํ๋ฌธ์ ์์๋๋ถ๊ตฌํ
๊ณ , ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ ํ๋(accuracy) ์ค์ฌ์ผ๋ก ํ๋ค๋ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ฆ ํ์ต๋ชจ๋ธ์ ์ด์ฉํด ์ ํ๋๋ฅผ
์ด๋์ ๋ํฅ์์์ผฐ๋คํ๋๋ผ๋,์ ๋ฐ๋(precision)๋์ฌํ์จ(recall)์์ฌ์ ํ๋ฎ์์์๋๊ฒ์ด๋ค.์ค์ ๋ก
[4]์์๋ ์ค๋ฅ์จ์ ๋ฎ์ง๋ง ๋ฉํ๋ณ์๋ง ์ด์ฉํ ๊ฒฝ์ฐ F-์ ์๊ฐ 0.2343, ํ ์คํธ ํน์ง์ ํ์ฉํ ๊ฒฝ์ฐ F-์ ์
๊ฐ 0.4976์ ๋ถ๊ณผํ๋ค. ํ์ง๋ง ์์ ์์ธก ๋ฌธ์ ์ ๊ฒฝ์ฐ ์์ ๋ฒ์ฃผ์ธ โํต๊ณผโ ์ฌ๋ถ๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ค์ ๋ฒ์ฃผ๋ฅผ
์ฐพ๋๊ฒ๋ณด๋ค๋์ฑ์ค์ํ๋ฌธ์ ์ด๊ธฐ๋๋ฌธ์์ฌํ์จ๊ณผ,์ฌํ์จ์๊ณ ๋ คํ F-์งํ์์ค์์ฑ์๊ฐ๊ณผํ ์์๋ค.
๋ค๋ฅธ ์ฐ๊ตฌ๋ค์ ์ ๋ฐ๋, ์ฌํ์จ, F-์ ์ ์์ด ์ ํ๋๋ง ๊ณต๊ฐํ๋ค.
2.3 ๋ฐ์ดํฐ ๋ถ๊ท ํ ํด์
๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ ์์ธก์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์์ด ํต๊ณผํ ๊ฒ์ธ์ง ํ์ง๋ ๊ฒ์ธ์ง ๋ถ๋ฅํ๋ 2๋ฒ์ฃผ
๋ฌธ์ ์ด๋ค. ๋ฌผ๋ก , ํ์ง๋๋ ๋ค์ํ ์ผ์ด์ค๋ฅผ ๊ณ ๋ คํด์ ๋ค๋ฒ์ฃผ(multiclass) ๋ฌธ์ ๋ฅผ ํ์ด๋ณผ์๋ ์์ง๋ง ๋ณดํต
์ ์ด๋ค ๋ฐฉ์์ผ๋ก ํ์ง๋๋์ง๋ณด๋ค ํต๊ณผ๊ฐ ๋๋์ง์ ์ฌ๋ถ๊ฐ ์ฃผ๋ ๊ด์ฌ์ฌ์ด๊ธฐ ๋๋ฌธ์ ๋ณด๋ค ๋จ์ํ 2๋ฒ์ฃผ
๋ฌธ์ ๋ก ์นํํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ด๋ ๊ฒ ๋ค๋ฒ์ฃผ ๋ฌธ์ ๋ฅผ 2๋ฒ์ฃผ๋ก ์นํํ๊ณ ๋๋ฉด, ๋ณดํต์ ํต๊ณผ๋๋ ์์์
์๊ฐ ํ์ง๋๋ ์๋ณด๋ค ์ ๊ธฐ ๋๋ฌธ์ ๊ฒฐ์ ๊ฒฝ๊ณ(decision boundary)๋ฅผ ๋ณด๋ค ์ ๋ฐํ๊ฒ ํ์ํ๊ธฐ ์ํด์๋ ๊ทธ
๋ฒ์ฃผ๊ฐ ๋ถ๊ท ํ์ฑ์ ๊ณ ๋ คํด์ฃผ๋ ๊ฒ์ด ์ข๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ๋ค๋ก๋ ์ธ๋ ์ํ๋ง(under sampling), ์ค๋ฒ ์ํ๋ง(over sampling), ๋น์ฉ
์ฐจ๋ณ(cost-sensitive)๋ฐฉ๋ฒ๋ฑ์ด์๋ค.์ธ๋์ํ๋ง์๋ค์๋ฒ์ฃผ์์์์๋ฒ์ฃผ์์๋งํผ๋ฐ์ดํฐ๋ฅผ์ํ๋งํ
๋ ๊ฒ์ด๊ณ , ๋ฐ๋๋ก ์ค๋ฒ ์ํ๋ง์ ๋ค์ ๋ฒ์ฃผ์ ์์ ๋ง์ถฐ ์์ ๋ฒ์ฃผ์ ์๋ฅผ ๋ถํธ์คํธ๋ํ(bootstrapping)
ํ๋ ๊ฒ์ด๋ค. ๋น์ฉ ์ฐจ๋ณ ๋ฐฉ๋ฒ์ ๊ฐ ๋ฒ์ฃผ์ ์ค๋ถ๋ฅ์ ์๋ก ๋ค๋ฅธ ๋น์ฉ์ ๋ถ๊ณผํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์์ ๋ฒ์ฃผ์
์ํ ๋ฐ์ดํฐ์ ๋ ํฐ ๋น์ฉ์ ๋ถ๊ณผํ์ฌ ์ค๋ถ๋ฅ๋๋ ๊ฒ์ ์ต์ํํ๋ค. ์ด ์ธ์๋ ์์๋ธ์ด๋ [?] ์ปค๋ ๊ธฐ๋ฐ,
์กํฐ๋ธ ํ์ต(active learning) ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ๋ค๋ ๋ค์ ์ ์๋์๋ค. [?]
4
๊ทธ๋ฆผ 2: 18๋ ๊ตญํ ๋ฒ๋ฅ ์๋ค์ ์ฒ๋ฆฌ ์ ์ฐจ๋ฅผ ๋ํ๋ธ ์ํค ๋ค์ด์ด๊ทธ๋จ. ์ฌ๊ฐํ ๋ชจ์์ ๊ฐ ๋ ธ๋(node) ์
์ซ์๋ ํด๋น ๋จ๊ณ๋ฅผ ๊ฑฐ์น ์์ ๊ฐ์๋ฅผ ์๋ฏธํ๋ค.
3 ๋ฐ์ดํฐ ๋ถ๊ท ํ์ ๊ณ ๋ คํ ์์ ๊ฒฐ๊ณผ ์์ธก
์์์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๊ธฐ ์ํด์๋ ๋จผ์ ๋ฌธ์ ์ ํน์ฑ์ ์ ์ดํดํ๋ ๊ฒ์ด ์ค์ํ๋ค. ๋จผ์ ์์์๋ ๊ธฐ์กด
๋ฒ๋ฅ ์์์ ,ํ์งํ๊ฑฐ๋์๋ก์ด๋ฒ๋ฅ ์์ ์ํ๋๋ฒ๋ฅ ์๋ง์๋๊ฒ์ด์๋๋ผ๊ฒฐ์์,๋์์,์ถ์์๊ตฌ์,
์์ฐ์, ์ ๋ถ ๊ด๋ฆฌ์ง์ ์๋ช ์ ์ถ์ ๋ฑ๋ ํฌํจ๋๋ค. ๊ทธ ์ค์์ ์ผ๋ฐ ์๋ฏผ ๋ฐ ๊ฐ์ข ์ด์ต ๋จ์ฒด์ ์ํฅ์ ๊ฐ์ฅ
ํฌ๊ฒ ์ฃผ๋ ๊ฒ์ ๋ฒ์ ์์ ํ๋ ๋ฒ๋ฅ ์์ด๋ฏ๋ก, ์ด ์ฐ๊ตฌ์์๋ ๋ฒ๋ฅ ์์ ์ค์ ์ ๋๋ค.
๋ค์์ผ๋ก ๋ฒ๋ฅ ์์ด ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง ์ ์๋์ง ํ์ ํด๋ณด๊ณ , โํต๊ณผโ๋์๋ค๋ ๊ฒ์ด ๋ฌด์์ ์๋ฏธํ๋์ง
์ ์ํด๋ณด์.๊ทธ๋ฆผ 2๋ 18๋๊ตญํ์๋ฒ๋ฅ ์๋ค์ด๊ฑฐ์น๋๊ณผ์ ์๋์ํํ์ํค๋ค์ด์ด๊ทธ๋จ(Sankey diagram)
์ด๋ค.
์ผ๋ฐ์ ์ผ๋ก ๋ฒ๋ฅ ์๋ค์ ์๊ธฐ๋ง๋ฃํ๊ธฐ, ๋์๋ฐ์ํ๊ธฐ, ํ๊ธฐ, ์ฒ ํ, ๋ถ๊ฒฐ, ๊ณตํฌ ๋ฑ 6๊ฐ์ง ์ํ ์ค ํ๋๋ก
๋๋๊ฒ๋๋ค.๊ทธ์ค์์๊ณตํฌ๋๋ฒ๋ฅ ์๋ง์ด์ฑ๊ณต์ ์ผ๋ก โํต๊ณผโ๋์๋ค๊ณ ๋ณผ์์์ผ๋ฉฐ,๊ณตํฌ๋จ๊ณ์์ด๋ฅด๊ธฐ
์ ์ ํ์ฌ ๊ตญํ์ ์๊ธฐ๊ฐ ๋ง๋ฃ๋๊ฑฐ๋(์๊ธฐ๋ง๋ฃํ๊ธฐ), ๊ฐ์ ๋ชฉ์ ์ ๊ฐ์ง ๋ค๋ฅธ ๋์์ด ๋ฐ์๋์ด ์์์ด ํ
๊ธฐ๋๊ฑฐ๋(๋์๋ฐ์ํ๊ธฐ), ๋ฐ์ํ ์์๋ค์ด ์ฒ ํ๋ฅผ ํ๋ ๊ฒฝ์ฐ ๋ฒ๋ฅ ์์ ๋ฒ์ด ๋์ง ๋ชปํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋
๋ฒ๋ฅ ์์๋ฐ์์์ ,์ฆ์ ์๋จ๊ณ์์ํด๋น๋ฒ๋ฅ ์์ด๊ณตํฌ๋ ๊ฒ์ธ์ง์์ฌ๋ถ๋ฅผ์์ธกํ๋๊ฒ์๋ชฉํ๋กํ๋ค.
๋ค์์ผ๋ก ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ณด๋ฉด, ์ด ๋ฌธ์ ๋ ์ ํ์ ์ธ ๋ฐ์ดํฐ ๋ถ๊ท ํ(data imbalance) ๋ฌธ์ ๋ก, ํ๊ธฐ
๋๋ ๋ฒ๋ฅ ์์ ๋นํด ํต๊ณผ๋๋ ๋ฒ๋ฅ ์์ด ์ ๋ค๋ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ์ 18๋ ๊ตญํ์์ ๋ฐ์๋ ๋ฒ๋ฅ ์์
ํต๊ณผ์จ์ 17.4%์ด๋ฏ๋ก, ๋ฒ๋ฅ ์์ ๋ฌด์กฐ๊ฑด ํ๊ธฐ๋๋ค๋ ๋ชจ๋ธ์ ์ฌ์ฉํด๋ 82.6%๋ผ๋ ๋์ ์ ํ๋(accuracy)
๋ฅผ์ป๊ฒ๋๋ค.๋ฐ๋ผ์๋ณธ์ฐ๊ตฌ์์๋์ ํ๋๋ฟ์๋๋ผ์ ๋ฐ๋(precision),์ฌํ์จ(recall), F-์ ์(F-score)
๋ฅผ๊ณ์ฐํ์ฌ์ฑ๋ฅ์์ ๊ฒํ๋ฉฐ,๋ฒ๋ฅ ์์ดํ๋๋ํต๊ณผ๋์ง์๋๋ค๋์ ํ๋ 82.6%,์ฌํ์จ 0์ธ๋ชจ๋ธ์๊ธฐ์ค
๋ชจ๋ธ(baseline model)๋ก ์ ํ๋ค. ์ ํ๋, ์ ๋ฐ๋, ์ฌํ์จ, F-์ ์ ๊ฐ๊ฐ์ ์ (2)-(5)์ ๋ํ๋๋ค.
accuracy =TP + TN
TP + FP + TN + FN(2)
5
precision =TP
TP + FP(3)
recall =TP
TP + FN(4)
F โ score = 2ร precisionร recallprecision+ recall
(5)
์ฌ๊ธฐ์ TP๋ํต๊ณผ๋์์์ดํต๊ณผ๋๋ค๊ณ ์์ธกํ๊ฒฝ์ฐ์์(true positive), FP๋ํ๊ธฐ๋์์์ดํต๊ณผ๋
๋ค๊ณ ์์ธกํ๊ฒฝ์ฐ์์(false positive), TN๋ํ๊ธฐ๋์์์ดํ๊ธฐ๋๋ค๊ณ ์์ธกํ๊ฒฝ์ฐ์์(true negative),
FN์ ํต๊ณผ๋ ์์์ด ํ๊ธฐ๋๋ค๊ณ ์์ธกํ ๊ฒฝ์ฐ์ ์(false negative)๋ฅผ ๋ํ๋ด๋ฉฐ, ์ด๋ค์ ํ 1๊ณผ ๊ฐ์ ํผ๋
ํ๋ ฌ๋ก ๋ํ๋ผ ์ ์๋ค.
Bill pass (predicted) Bill fail (predicted)
Bill pass (actual) TP FN
Bill fail (actual) FP TN
ํ 1: ํผ๋ ํ๋ ฌ
๋์งธ,๋ฐ์๋ฐ์ดํฐ์์ฃผ๊ธฐ์๋ณํ์ (changepoint)์ด์กด์ฌํ๋ค.๋ณดํต์์๋ฐ์์๋์ฐ๋ง์ด๋ค๊ฐ์ฌ์๋ก
๋ฐ์ ์์์ ์ ์ฐจ ์ฆ๊ฐํ๋ค๊ฐ ์ฐ์ด์ ๊ธ๋ฝํ๋ ๋ฑ ์ฃผ๊ธฐ์ฑ์ ๊ฐ์ง๋ค. ๋, ๋ณํ์ ์ด๋ ๋ฐ์ดํฐ์ ์ํฅ์ ์ฃผ๋
์์ธ์ด ํ๋ ์ด์ ๋ณํํ์ฌ ์๊ณ์ด ๋ฐ์ดํฐ์ ์์์ด ๋ณํ๋ ๊ฒ์ธ๋ฐ, ๊ตญํ์์๋ ์ ๊ฑฐ, ์์ฅ ๋ณ๊ฒฝ ๋ฑ์ด
์์ ๋ฐ์ ๋ฐ ํต๊ณผ ์ฌ๋ถ์ ์ํฅ์ ์ฃผ๊ณ ์๋ค. ์์ ํน์ฑ ๋๋ฌธ์ ์์ ๋ฐ์ ์์ ๋ํ ์์์ ๋ฐ์์ ํต๊ณผ๋ฅผ
์ดํดํ๋๋ฐ ๋ฌด์ํ ์ ์๋ ์์ธ์ด ๋๋ค.
์์ธก์๋๋ก์ง์คํฑํ๊ท๋ถ์(logistic regression), SVM, k-NN,๋์ด๋ธ๋ฒ ์ด์ฆ(Naive Bayes),์์ฌ๊ฒฐ์
๋๋ฌด(decision tree)๋ฑ๋ค์ฏ๊ฐ์ง์๊ณ ๋ฆฌ์ฆ์์ฌ์ฉํ๋ค.๋ฒ์ฃผํ๋ณ์๋ 1-of-c์ฝ๋ฉ์ํ์ฌ์ด์ง๋ณ์ํํ๊ณ ,
์ซ์ํ ๋ณ์๋ ์ ๊ทํ(normalize)ํ๋ค.
4 ์คํ
4.1 ๋ฐ์ดํฐ
๋ณธ ์ฐ๊ตฌ์์๋ POODL: POpong Open Data Library[1]์์ ์ ๊ณตํ๋ ๋ํ๋ฏผ๊ตญ ์ ์น ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ
์ด์ฉํ๋ค. ์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ ๊ตญํ ์์์ ๋ณด์์คํ ๊ณผ ์ค์์ ๊ฑฐ๊ด๋ฆฌ์์ํ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๋ณํฉํ
๊ฒ์ผ๋ก, 1๋๋ถํฐ 19๋๊น์ง ๊ตญํ์์ ์ ๊ฑฐ์ ์ถ๋ง ๋๋ ๋น์ ๋ ์ฝ 13,000๋ช ๋ถ์ ํด๋นํ๋ ์ ์น์ธ ๋ฐ์ด
ํฐ์ ์ฝ 54,000๊ฑด์ ์์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค (2014๋ ๊ธฐ์ค). ์ด ์ฐ๊ตฌ์์๋ POODL์์ ์ ๊ณตํ๋ 18๋
๊ตญํ์์, ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ์์ธก์ ์ฌ์ฉํ ๋ณ์๋ ํ 2๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ ์ฌ์ฉ๋ ๋ณ์๋ค์ [4]์์ ์ ์๋ ๋ณ์๋ฅผ ์ฐธ๊ณ ํ์์ผ๋ฉฐ, ์ด ์ฐ๊ตฌ์์๋ ํนํ ๋ํ๋ฐ์์์ ์
๋น, ์์์ ์๊ด ์์ํ, ์์์ด ๋ฐ์๋ ์๊ธฐ ๋ฑ์ด ์ค์ํ ๋ณ์๋ก ๊ผฝํ๋ค. ํํธ, ์์ ๋์ด๋ ๋ณ์ ์ค์๋
๊ณต๋๋ฐ์์์ ์๊ฐ ์๋๋ฐ ๊ตญ๋ด์์๋ ์์ ๋ฐ์ ์์์ ๊ฒฝ์ฐ ๊ณต๋๋ฐ์์๊ฐ ์ต์ 10์ธ์ด ๋์ด์ผ ํ๋ค๋
์ ๊ณผ ์ ๋ฒ๋ถ์ ์ํ ์์์ฅ, ์์ฅ, ์์ ๋ฟ ์๋๋ผ ํ์ ๋ถ์์ ๋ฐ์ํ ์ ์๋ค๋ ์ ์ด ๋ ํนํ๋ค.
6
๋ณ์ ๋ถ๋ฅ ์ค๋ช
๋ฐ์์ ๋ํ๋ฐ์์
๋ํ๋ฐ์์์ ์ ๋น
๋ํ๋ฐ์์์ ์ฑ๋ณ
๋ฐ์์์ ์ ํ (์์์ฅ, ์์ฅ, ์ ๋ถ, ์์, ๊ธฐํ)
๊ณต๋๋ฐ์์ ์
๋ฐ์์ ์ค ๋ค์ ์ ๋น
๋ฐ์์ ์ค ๋ค์ ์ ๋น์ ๋น์จ
๋ฐ์์ ์ค ์ 1์ ๋น ์์์ ๋น์จ
์์ํ ์์์ ์๊ด ์์ํ
๊ธฐํ ๋ฐ์์ผ์ ๊ตญํ ์์์ผ๋ก๋ถํฐ์ ์ผ์
๋ฐ์์ผ์ ์(month)
๋ฐ์์ผ์ ๊ตญํ ์ฐ์ฐจ(1,2,3,4๋ )
ํ 2: ๊ณ ๋ ค๋ ๋ณ์๋ค
18๋ ๊ตญํ์๋ ์ด 14,947๊ฐ์ ์์์ด ๋ฐ์๋์๋๋ฐ, ๊ทธ ์ค์์ 13,913๊ฐ์ ์์์ด ๋ฒ๋ฅ ์์ ์์ด์๊ณ ,
13,405๊ฐ์์์์ด๋ฐ์์๋ค์์ํด์ฒ ํ๋์ง์๊ณ ๋จ์๋ค.๋ฐ์์์์ํด์ฒ ํ๋์ง์์ผ๋ฉด์์ต์ข ์ ์ผ๋ก
โํต๊ณผโ๊ฐ ๋์ด ๋ฒ๋ฅ ์ด ๋ ๋ฒ๋ฅ ์์ ์ฝ 17.4%์ธ ์ด 2,335๊ฐ์๋ค.
4.2 ๋ณ์ ์ ํ
์ ๋ฒ์์ ์ค์ํ ์ญํ ์ ํ๋ ๋ณ์๊ฐ ๋ฌด์์ธ์ง ํ์ ํ๊ธฐ ์ํด ๋จ๋ณ์ ํํฐ ๋ณ์ ์ ํ๋ฒ์ธ (univariate
filter variable selection) ์นด์ด ์ ๊ณฑ ํต๊ณ๋ (chi-square statistics)๋ฅผ ์ด์ฉํด ์์ k๊ฐ์ ๋ณ์๋ฅผ ๋ฝ์๋ณด
์๋ค. ์นด์ด ์ ๊ณฑ ํต๊ณ๋์ ์ข ์๋ณ์์ ์ํฅ๋ ฅ์ด ํฐ ๋ ๋ฆฝ๋ณ์ ํ๋ํ๋๊ฐ ์์ธก ๋ชจํ์ ๊ธฐ์ฌํ๋ ์ ๋๋ฅผ
๊ณ์ฐํ๋๊ฒ์ผ๋ก,๋ณ์๊ฐ๊ตํธ์์ฉ์๊ณ ๋ คํ์ง์์ง๋ง๋ณ์์์ค์๋๋ฅผ๊ฐ๋จํ๋์ถํ๊ธฐ์์ข์๋ฐฉ์์ด๋ค.
ํนํ, ์์์ ๋ฉํ๋ฐ์ดํฐ์ ๊ฐ์ด ๋ฒ์ฃผํ ๋ณ์๊ฐ ๋ง์ ๊ฒฝ์ฐ๋, ์ฌ์ง์ด ๋ฐ์ดํฐ๊ฐ ํฌ์(sparse)ํ ๊ฒฝ์ฐ์๋
์ ์๋ํ๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ด ๋ณธ ์ฐ๊ตฌ์ ๋ฐ์ดํฐ์ ์ ์ ํฉํ๊ฒ ์ ์ฉํ ์ ์๋ค [?]. ์นด์ด ์ ๊ณฑ ํต๊ณ๋์
๋์ถํ ๊ฒฐ๊ณผ ์์ ์ธ๊ธ๋ ๋ณ์ ์ค ๊ณต๋๋ฐ์์ ์๊ฐ ๊ฐ์ฅ ์ค๋ช ๋ ฅ์ด ํฐ ๋ณ์๋ก ๋ฝํ์ผ๋ฉฐ ๋ค์์ผ๋ก ๋ฐ์์์
์ ํ ์ค ์์์ฅ, ์์, ์ ๋ถ ๋ฐ์ ์ฌ๋ถ, ๊ทธ๋ฆฌ๊ณ ๋ฐ์์ผ์ ๊ตญํ ์์์ผ๋ก๋ถํฐ์ ์ผ์, ๋ฐ์์ ์ค ์ 1์ ๋น
์์์ ๋น์จ์ด ์์ฐจ์ ์ผ๋ก ๋ฑ์ฅํ๋ค.
4.3 ์์ธก ์๊ณ ๋ฆฌ์ฆ
์คํ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ์งํ๋์๋๋ฐ, ๋จผ์ ํ 1์ ๋ณ์๋ค์ ์ด์ฉํ์ฌ ๋ก์ง์คํฑ ํ๊ท๋ถ์, SVM, k-NN,
๋์ด๋ธ ๋ฒ ์ด์ฆ, ์์ฌ๊ฒฐ์ ๋๋ฌด ๋ฑ ๋ค์ฏ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํด ์์์ ๊ฒฐ๊ณผ๋ฅผ ์์ธก ํด๋ณด๊ณ , ๋๋ฒ์งธ๋ก
๋ก์ง์คํฑ ํ๊ท๋ถ์๊ณผ SVM์ ์ด์ฉํด ๋ฐ์ดํฐ์ ๋ถ๊ท ํ์ ์ฒ๋ฆฌํ ํ ๊ฒฐ๊ณผ ์์ธก์ ํ์๋ค.
4.3.1 ๋ก์ง์คํฑ ํ๊ท๋ถ์
๋ก์ง์คํฑ ํ๊ท๋ถ์(logistic regression)์ ๋ก์ง(logit), ๋๋ MaxEnt๋ก ๋ถ๋ฆฌ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ข ์๋ณ์ y
๊ฐ ์ค์ํ์ธ ์ผ๋ฐ ์ ํํ๊ท๋ถ์๊ณผ๋ ๋ฌ๋ฆฌ ์ข ์๋ณ์๊ฐ ๋ฒ์ฃผํ์ธ ๊ฒฝ์ฐ๋ฅผ ๋ค๋ฃฌ๋ค. ๋ก์ง์คํฑ ํจ์ ฯ(t) =
7
๋ฒํธ ๋ณ์
1 ๊ณต๋๋ฐ์์ ์
2 ๋ฐ์์์ ์ ํ (์์์ฅ)
3 ๋ฐ์์์ ์ ํ (์์)
4 ๋ํ๋ฐ์์ (์น๋ฐ์ฐ๋ ์ ์ํฌ)
5 ๋ฐ์์์ ์ ํ (์ ๋ถ)
6 ๋ฐ์์ผ์ ๊ตญํ ์์์ผ๋ก๋ถํฐ์ ์ผ์
7 ๋ฐ์์ ์ค ์ 1์ ๋น ์์์ ๋น์จ
8 ๋ํ๋ฐ์์์ ์ ๋น (ํ๋๋ผ๋น)
9 ์์์ ์๊ด ์์ํ (๊ท์ ๊ฐํํน๋ณ์์ํ)
10 ๋ํ๋ฐ์์ (ํตํฉ๋ฏผ์ฃผ๋น ์ต์ฒ ๊ตญ)
ํ 3: ์ ํ๋ ์์ 10๊ฐ์ ๋ณ์
1/1 + eโt๋ฅผ ์ด์ฉํ์ฌ ์๋์ ์ (6)๊ณผ ๊ฐ์ด x์ ๋ฒ์ฃผ y๊ฐ 1์ด ๋ ํ๋ฅ F (x)๋ฅผ ๊ตฌํ๋ฉฐ, ํ๋ผ๋ฏธํฐ ฮฒi์ ์ถ
์ ์๋์ต์์์น๋ฒ(least squares)๋ฅผ์ฌ์ฉํ๋์ ํํ๊ท๋ถ์๊ณผ๋๋ฌ๋ฆฌ์ต๋์ฐ๋๋ฒ(maximum likelihood)
์ ์ฌ์ฉํ๋ค.
F (x) = p(y = 1|x) = ฯ(ฮฒ0 + ฮฒ1x1 + ...+ ฮฒmxm) =1
1 + eโ(ฮฒ0+ฮฒ1x1+...+ฮฒmxm)(6)
4.3.2 SVM
์์ ๊ฑฐ๋ก ํ ๋ก์ง์คํฑ ํ๊ท๋ถ์์ ์ ๋ ฅ๊ฐ์ด ์ฃผ์ด์ก์ ๋ ์ถ๋ ฅ๊ฐ์ ๋ํ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ถ์ ํ๋ ์์ฑ์
(generative) ์๊ณ ๋ฆฌ์ฆ์ธ๋ฐ ๋ฐํด, SVM(support vector machine)์ ๋ณ๋์ ํ๋ฅ ์ถ์ ์์ด ๊ฒฐ๊ณผ๋ฅผ ์ง์
์ ์ผ๋ก ์ถ์ ํ๋ ํ๋ณ์ (discriminative) ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก๋ ๋ฐ์ดํฐ ๊ณต๊ฐ์ ๊ณ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก
๋ณํํ์ฌ ๋ฒ์ฃผ ๊ฐ ๋ง์ง(margin)์ ์ต๋ํํ๋ ํ์ดํผํ๋ ์ธ์ ์ฐพ๋ 2์ฐจ ์ต์ ํ(quadratic optimization)
๋ฌธ์ ๋ฅผ ํผ๋ค. ์ฆ, w๋ฅผ x์ ๋ํ ๋ฒ์ ๋ฒกํฐ(normal vector)๋ผ๊ณ ํ๊ณ x์ ๋ํ ๋ณํ ํจ์ ฮฆ(x)๋ฅผ ์ ์
ํ๋ฉด ํ์ดํผํ๋ ์ธ์ w ยท ฮฆ(x) โ b = 0๋ก ์ธ ์ ์๋ค. ๋, ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ์์ฉํ๊ธฐ ์ํด i๋ฒ์งธ ๊ฐ์ฒด๊ฐ
๋ง์ง์ ๋ฒ์ด๋ ๋ ํ๋ํฐ ์ ์๋ฅผ ๋ถ์ฌํ์ฌ ฮพi๋ผ๊ณ ํ๊ณ , ๋ง์ง๊ณผ ์ค๋ถ๋ฅ์ ๋ํ ์ค์๋๋ฅผ ์ ํ๋ ์์ C๋ฅผ
๋์ ํ๋ฉด ์ต์ ํ ๋ฌธ์ ์์ ๋ชฉ์ ์์ ์ (7)์ด ๋๋ฉฐ, ์ (8), (9)์ ๋ ๊ฐ์ง ์ ์ฝ์กฐ๊ฑด์ ๊ฐ์ง๋ค.
arg minw,ฮพ,b
1
2||w||2 + C
nโi=1
ฮพi (7)
yi(w ยท ฮฆ(xi)โ b) โฅ 1โ ฮพi(i = 1, ..., n) (8)
ฮพi โฅ 0(i = 1, ..., n) (9)
์ฌ๊ธฐ์ ํนํ K(xi,xj) = ฮฆ(xi) ยท ฮฆ(xj)๋ฅผ ์ปค๋ ํจ์(kernel function)๋ผ๊ณ ํ๋ฉฐ, ๋คํญ์(polynomial),
์๊ทธ๋ชจ์ด๋(sigmoid), RBF ์ปค๋ ๋ฑ์ ์ฌ์ฉํ ์ ์๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ RBF ์ปค๋์ ์ฌ์ฉํ์๋ค.
8
4.3.3 k-NN
๊ฑฐ๋ฆฌ์์ผ๋ก ๊ฐ์ฅ ๊ฐ๊น์ด k๊ฐ ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํฌํํ๋ ๊ฒ์ผ๋ก, ๋ณ๋์ ํ์ต๋ชจ๋ธ์ ๊ตฌ์ถํ์ง ์๋๋ค. ์ฆ, ๊ฐ
๋ฒ์ฃผ๋ฅผ l์ด๋ผํ๋ฉด y์ ๋ํ ์์ธก๊ฐ์ ๋ค์์ ์ (10)๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
y(x) = argmaxl
โxjโN(x)
I(yj = l) (10)
4.3.4 ๋์ด๋ธ ๋ฒ ์ด์ฆ
๋์ด๋ธ ๋ฒ ์ด์ฆ(naive Bayes)๋ ๋ฒ ์ด์ฆ ์ด๋ก (Bayes Theorem)์ ๊ธฐ๋ฐํ ๊ฐ๋จํ ํ๋ฅ ๋ชจํ์ผ๋ก, ๋ณ์๋ค ๊ฐ
๋ ๋ฆฝ์ฑ(independence)๋ฅผ ๊ฐ์ ํ๋ ๊ฒ์ด ํน์ง์ ์ด๋ค. y์ ๋ํ ์์ธก๊ฐ์ ๋ค์์ ์ (11)๋ฅผ ๋ฐ๋ฅธ๋ค.
y(x) = argmaxyP (y)
nโi=1
P (xi|y) (11)
4.3.5 ์์ฌ๊ฒฐ์ ๋๋ฌด
์์ฌ๊ฒฐ์ ๋๋ฌด(decision tree)๋ํน์ ์งํ๋ฅผ๊ธฐ์ค์ผ๋ก๋ฐ์ดํฐ๋ฅผ๊ฐ์ฅ์๊ฐ๋ฅด๋์ ์๋ฐ๋ณต์ ์ผ๋ก(iterative)
์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์์ฃผ ์ฌ์ฉ๋๋ ์งํ๋ก๋ ์ (12)์ ์ง๋ ๋ถ์๋(Gini impurity) ๋๋ ์ (13)์ ์ํธ
๋กํผ(entropy) ๋ฑ์ด ์๋ค. ์ฌ๊ธฐ์ pk๋ k ๋ฒ์งธ ๋ฒ์ฃผ๋ก ๋ ์ด๋ธ๋ง๋ ๋ฐ์ดํฐ์ ๋น์จ์ด๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด
์ค ์ง๋ ๋ถ์๋๋ฅผ ์ฌ์ฉํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ์๋ค.
IG(A) = 1โmโk=1
p2k (12)
IE(A) = โmโk=1
p2k log2(pk) (13)
4.4 ์คํ ๊ฒฐ๊ณผ
๋จผ์ , ์์ ๋ค์ฏ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ์์์ ์์ธกํ ์ฒซ ๋ฒ์งธ ์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ ํ 4์ ๊ฐ๋ค. ๊ณผ์
ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์คํ๋ณ๋ก 10-fold cross validation์ ์ ์ฉํ์ฌ ๊ฐ ์งํ์ ๋ํ ํ๊ท ๊ฐ์ ๊ธฐ๋กํ์๋ค.
์๊ณ ๋ฆฌ์ฆ์ ์ ํ๋๋ 86.8%์์ 91.1%๋ก ๊ธฐ์ค ๋ชจ๋ธ์ 82.6%์ ๋นํด ์ ๋ฐ์ ์ผ๋ก 4% ์ด์ ์์นํ์๊ณ
์์ ์์ธก ์ฐ๊ตฌ์์ ๊ฐ์ฅ ํ๋ฐํ๊ฒ ์ฌ์ฉ๋๋ ๋ก์ง์คํฑ ํ๊ท๋ถ์์ด ๊ฐ์ฅ ๋์์ง๋ง, ์๊ณ ๋ฆฌ์ฆ ๊ฐ ํธ์ฐจ๋
ํฌ์ง ์์๋ค. ํํธ, ๋ก์ง์คํฑ ํ๊ท๋ถ์๊ณผ SVM์ ์ฌํ์จ์ 40-50% ์์ค์ผ๋ก, k-NN์ด๋ ๋์ด๋ธ ๋ฒ ์ด์ฆ,
์์ฌ๊ฒฐ์ ๋๋ฌด์๋นํด์ฌํ์จ์ด 20%์ด์๋จ์ด์ง๋๋ฐ๋ฉด์ ๋ฐ๋๋๋๊ฒ๋์ถ๋์๋ค.๊ฒฐ๊ณผ์ ์ผ๋ก์๊ณ ๋ฆฌ์ฆ
๊ฐ F-์ ์๋ ํฐ ํธ์ฐจ๊ฐ ์์๊ณ , ์์ฌ๊ฒฐ์ ๋๋ฌด๊ฐ ๊ฐ์ฅ ๋์ F-์ ์๋ฅผ ์ป์๋ค.
๋ ๋ฒ์งธ ์คํ์ ๋ฐ์ดํฐ์ ๋ถ๊ท ํ์ ์ฒ๋ฆฌํ ํ ๊ฒฐ๊ณผ ์์ธก์ ํ๋ ๋ฐฉ์์ด๋ค. ๋ถ๊ท ํ์ ํ์ต ๋ฐ์ดํฐ์์
๊ฐ ๋ฒ์ฃผ(class)์ ๋น์จ์ ๋ฐ๋ผ ์์ ๋ฒ์ฃผ์ ์ค๋ถ๋ฅ ๋น์ฉ์ ๊ฐ์คํจ์ผ๋ก์จ ํด์ํ๋ค. ์๊ณ ๋ฆฌ์ฆ์ ์์ ๋ค์ฏ
๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ ์ค ์ ํ๋๊ฐ ๊ฐ์ฅ ๋์ ๋ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ด์, ์์ ์ฐ๊ตฌ์์ ๊ฐ์ฅ ๋น๋ฒํ๊ฒ ํ์ฉ๋๋ ๋ก
์ง์คํฑ ํ๊ท๋ถ์๊ณผ SVM์ ์ฌ์ฉํ๋ค. ์ด ์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ ํ 5๊ณผ ๊ฐ๋ค. ์๊ณ ๋ฆฌ์ฆ์ ์ ํ๋์ ์ ๋ฐ๋๋
์์ ์คํ์ ๋นํด ๋ค์ ๋จ์ด์ก์ง๋ง, ์ฌํ์จ์ ๊ฐ๊ฐ 55.2%์์ 74.9%์, 43.9%์์ 74.93%์ผ๋ก ํฌ๊ฒ ์
์นํ์ฌ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ณด์ ์ ๊ฐ๋ฅ์ฑ์ ํ์ธํ ์ ์์๋ค. ์ค์ ๋ก ์์ ์์ธก์์๋ ํต๊ณผ๋์ง ์๋ ์์์
ํต๊ณผ๋๋ค๊ณ ํ๋ ๊ฒ๋ณด๋ค ํต๊ณผ๋๋ ์์์ ํต๊ณผ๋์ง ์๋๋ค๊ณ ํ๋ ๊ฒ์ ๋น์ฉ์ด ํฌ๊ธฐ ๋๋ฌธ์ ์ ๋ฐ๋๋ณด๋ค
9
๋ถ๋ฅ๊ธฐ ์ ํ๋(accuracy) ์ ๋ฐ๋(precision) ์ฌํ์จ(recall) F-์ ์
Logistic regression 0.9106 0.9107 0.5521 0.6601
SVM 0.9018 0.9950 0.4394 0.5596
k-NN 0.8683 0.6047 0.7493 0.6613
Naive Bayes 0.8717 0.6073 0.7438 0.6645
Decision tree 0.8786 0.6281 0.7447 0.6773
ํ 4: ๋ค์ฏ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ์์ ๊ฒฐ๊ณผ ์์ธก ์ฑ๋ฅ
์ฌํ์จ์ ๋์ด๋ ๊ฒ์ด ์ค์ํ๋ค๊ณ ํ ์ ์๋ค. ํํธ, ๋ก์ง์คํฑ ํ๊ท๋ถ์์ ๊ฒฝ์ฐ ์์ F-์ ์ ๊ธฐ์ค์ผ๋ก
๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ k-NN๊ณผ ๋น๊ตํด๋ ์ฝ๊ฐ์ ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์๋ค.
๋ถ๋ฅ๊ธฐ ์ ํ๋(accuracy) ์ ๋ฐ๋(precision) ์ฌํ์จ(recall) F-์ ์
Logistic regression 0.8794 0.6261 0.7487 0.6791
SVM 0.8640 0.5828 0.7493 0.6512
ํ 5: ๋ฐ์ดํฐ ๋ถ๊ท ํ์ ํด์ํ ํ ๋ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ์์ ๊ฒฐ๊ณผ ์์ธก ์ฑ๋ฅ
4.4.1 ์๊ด ์์ํ๋ณ ์์ธก
๋ค์์ผ๋ก๊ฐ์ฅ์ข์์ฑ๋ฅ์๋ํ๋ธ๋ก์ง์คํฑํ๊ท๋ถ์์์ค์ ์ผ๋ก์๊ด์์ํ๋ณ์์ธก์ฑ๋ฅ์์ฌ์ธต์ ์ผ๋ก
์กฐ์ฌํ๋ค. 18๋ ๊ตญํ์์ ๋ฑ์ฅํ ์๊ด ์์ํ 37๊ฐ ์ค ์์์์ํ๋ ํน๋ณ์์ํ์ ๋ฌด๊ดํ๊ฒ ์๊ด ๋ฒ์์
๊ฐ์๊ฐ 100๊ฑด์ด ๋์ด์ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ๋ค๊ณ ํ๋จ๋๋ ์์ํ 17๊ฐ์ ๋ํ ์ฑ๋ฅ ์งํ๋ฅผ ํ 6์ ๋ํ๋๋ค.
์ด 17๊ฐ ์์ํ ์ค์์ 10๊ฐ์ ์์ํ์์ ๋ฒ์ฃผ ๋ถ๊ท ํ์ ๋ณด์ ํ๊ธฐ ์ด์ ๋ณด๋ค ์ข์ F-์ ์๋ฅผ ์ป์
์ ์์๋ค. ํํธ ๋ฒ์ฃผ ๋ถ๊ท ํ ๋ณด์ ์ ์ F-์ ์๊ฐ ๋์ ๊ฒฝ์ฐ๋ ๋ฑ์ฅํ์ง๋ง, ์ด๋ค์ ์ฌํ์จ์ ๋น๊ตํด๋ณด๋ฉด
๋ถ๊ท ํ์ ๋ณด์ ํ๊ธฐ ์ ๋ณด๋ค ํ์ ์ฌํ์จ์ด ์์นํ ๊ฒ์ ๋ฐ๊ฒฌํ ์ ์์๋ค. ์์ ํต๊ณผ ์์ธก ๋ฌธ์ ์์๋ ์์
๋ฒ์ฃผ์ ์ํ๋ ํต๊ณผ๋๋ ์์์ ์ฐพ์๋ด๋ ๊ฒ์ด ๋ ์ค์ํ๊ธฐ ๋๋ฌธ์ ์ด์ ๊ฐ์ด ์ฌํ์จ์ด ๋์์ง๋ ๊ฒ์ด ๋
์๋ฏธ์๋ ๊ฒฐ๊ณผ์ด๋ค.
4.4.2 ๊ตญํ ์ฐ์ฐจ๋ณ ์ ํ๋ ๋ฐ ์ ๋ฐ๋ ๋น๊ต
๋ง์ง๋ง์ผ๋ก ๋ก์ง์คํฑ ํ๊ท๋ถ์์ ์ฐ์ฐจ๋ณ ์์ธก ์ฑ๋ฅ์ ํ 7๊ณผ ๊ฐ์๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก 4๋ ์ฐจ๋ฅผ ์ ์ธํ๊ณ ๋
๋ณด์ ํ F-์ ์๊ฐ ๋ ๋์๋ค.
5 ๊ฒฐ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ 18๋ ๊ตญํ์์ ๋ฐ์๋ ๋ฒ๋ฅ ์์ ๋ค์ํ ์์ฑ์ ์ด์ฉํด ๋ฒ๋ฅ ์์ด ๋ฐ์๋ ์์ ์์ ๋ค์ฏ
๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ํต๊ณผ ์ฌ๋ถ๋ฅผ ์์ธกํ์๋ค. ๋ฒ๋ฅ ์์ด ๋ฌด์กฐ๊ฑด ํต๊ณผ๋์ง ์๋๋ค๋ ๊ฒ์ ๊ธฐ์ค ๋ชจ
๋ธ๋ก ์ผ๊ณ ๋ ๋ค์ฏ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ 4% ์ด์์ ์ ํ๋ ํฅ์์ ํตํด 86% ์ด์์ ์ ํ๋๋ฅผ ๋ด์์ง๋ง,
์ฌํ์จ์ด ๋ฎ์๋ค. ํํธ ๋ฐ์ดํฐ์ ๋ถ๊ท ํ์ ํด์ํด์ค ํ์๋ ์ด์ ๋ชจ๋ธ์ ๋นํด ์ฌํ์จ๊ณผ F-์ ์๋ฅผ ๋์ผ
์ ์์๋ค. ํ์ง๋ง F-์ ์๊ฐ ๋์์ง์ง ์๊ฑฐ๋ ์คํ๋ ค ์ ์ข์์ง๋ ๊ฒฝ์ฐ๋ ์์๋๋ฐ, ์ด ๊ฒฝ์ฐ์๋ ์์
์์ธก์์ ์ฌํ์จ์ ์ฌ๋ผ๊ฐ๊ฒ์ผ๋ก ํ์ธํ ์ ์์๋ค. ์์ ์์ธก ๋ฌธ์ ์์ ํต๊ณผ๋ ์์์ ๋์น์ง ์๋ ๊ฒ์
10
๊ธฐ์กด ๋ณด์ ํ
์์ํ๋ช ์ ํ๋ ์ ๋ฐ๋ ์ฌํ์จ F-์ ์ ์ ํ๋ ์ ๋ฐ๋ ์ฌํ์จ F-์ ์
์ ์น๊ฐํํน๋ณ์์ํ 0.9963 1.0000 0.9412 0.9697 0.9963 1.0000 0.9412 0.9697
๊ตญํ์ด์์์ํ 0.9762 1.0000 0.7308 0.8444 0.9830 0.9565 0.8462 0.8980
๋ฒ์ ์ฌ๋ฒ์์ํ 0.8723 0.9588 0.4326 0.5962 0.8997 0.7458 0.8186 0.7805
๋ณด๊ฑด๋ณต์ง๊ฐ์กฑ์์ํ 0.8868 0.8800 0.7097 0.7857 0.8585 0.7667 0.7419 0.7541
๋ณด๊ฑด๋ณต์ง์์ํ 0.9815 1.0000 0.7097 0.8302 0.9685 0.7765 0.7097 0.7416
์ธ๊ตํต์ํต์ผ์์ํ 0.8475 0.9000 0.4186 0.5714 0.8757 0.7561 0.7209 0.7381
์ฌ์ฑ๊ฐ์กฑ์์ํ 0.9271 0.9500 0.5278 0.6786 0.9190 0.7222 0.7222 0.7222
๊ธฐํ์ฌ์ ์์ํ 0.9228 0.8571 0.5455 0.6667 0.9099 0.6441 0.8128 0.7187
์ง์๊ฒฝ์ ์์ํ 0.8622 0.8206 0.7349 0.7754 0.7828 0.6250 0.8233 0.7106
ํ์ ์์ ์์ํ 0.9373 0.8919 0.6027 0.7193 0.8972 0.5776 0.8493 0.6876
๊ตญํ ํด์์์ํ 0.9103 0.9043 0.5882 0.7128 0.8592 0.5964 0.7924 0.6805
๊ต์ก๊ณผํ๊ธฐ์ ์์ํ 0.9150 0.9429 0.4925 0.6471 0.8855 0.6121 0.7537 0.6756
๊ตญ๋ฐฉ์์ํ 0.8484 0.9565 0.3492 0.5116 0.8375 0.6250 0.7143 0.6667
ํ๊ฒฝ๋ ธ๋์์ํ 0.9154 0.9610 0.5175 0.6727 0.8566 0.5517 0.7832 0.6474
๋๋ฆผ์์ฐ์ํ์์ํ 0.8360 0.9434 0.4587 0.6173 0.7910 0.6485 0.6009 0.6238
์ ๋ฌด์์ํ 0.9270 0.9195 0.5797 0.7111 0.8584 0.5313 0.7391 0.6182
๋ฌธํ์ฒด์ก๊ด๊ด๋ฐฉ์กํต์ ์์ํ 0.9071 0.9091 0.4800 0.6283 0.8626 0.5794 0.5840 0.5817
ํ 6: ๋ฒ์ฃผ๋ณ ๋น์ฉ ๋ณด์ ์ ํ์ ์๊ด ์์ํ๋ณ ์์ ๊ฒฐ๊ณผ ์์ธก ์ฑ๋ฅ ๋น๊ต (๋ณด์ ํ F-์ ์ ๊ธฐ์ค ๋ด๋ฆผ์ฐจ์)
๊ธฐ์กด ๋ณด์ ํ
์ฐ์ฐจ ์ ํ๋ ์ ๋ฐ๋ ์ฌํ์จ F-์ ์ ์ ํ๋ ์ ๋ฐ๋ ์ฌํ์จ F-์ ์
1๋ ์ฐจ 0.7885 0.4586 0.8655 0.5799 0.6336 0.6540 0.8534 0.6437
2๋ ์ฐจ 0.9483 0.4840 0.9128 0.6409 0.6504 0.7533 0.8952 0.6981
3๋ ์ฐจ 0.9651 0.4989 0.9306 0.6577 0.5772 0.7675 0.8938 0.6589
4๋ ์ฐจ 0.9949 0.7984 0.9595 0.8859 0.6598 0.8493 0.8840 0.7427
ํ 7: ๋ฒ์ฃผ๋ณ ๋น์ฉ ๋ณด์ ์ ํ์ ์ฐ์ฐจ๋ณ ์์ ๊ฒฐ๊ณผ ์์ธก ์ฑ๋ฅ ๋น๊ต (๋ณด์ ํ F-์ ์ ๊ธฐ์ค ๋ด๋ฆผ์ฐจ์)
๋ ์ค์ํ ๋ฌธ์ ๋ผ๊ณ ํ๋จํ๋ค๋ฉด, ์ด๋ ๋ฐ๋์งํ ๊ฒฐ๊ณผ๋ผ๊ณ ํ ์ ์๋ค. ๋ํ, ๊ธฐ์กด ์ฐ๊ตฌ๊ฐ ๋๋ถ๋ถ ๋ก์ง์คํฑ
ํ๊ท๋ถ์์์ ์ฉํ๋ฐ๋ฐํด,๋ค์ํ์๊ณ ๋ฆฌ์ฆ์๋์ ํด์๊ณ ๋ฆฌ์ฆ๊ฐ์ฑ๋ฅ๋น๊ต๋ํ ์์์๋ค.๋ฟ๋ง์๋๋ผ
๋ฏธ๊ตญ ์ํ์๋ ๋ค๋ฅธ ํน์ฑ์ ๊ฐ์ง๋ ํ๊ตญ ๊ตญํ์ ๋ํด ์คํ์ ์งํํ๋ฐ ์์๊ฐ ์๋ค.
์์ผ๋ก ์ด ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์์ผ ์์์ด ์ฌ๋ฌ ์ฌ์ฌ ๋จ๊ณ ์ค ์ด๋ ๋จ๊ณ์์ ํ๋ฝํ ๊ฒ์ธ์ง๋ฅผ ์์ธกํด๋ณด๊ฑฐ๋
๋ฐ์ ์์ ๊ธฐ์ค์ด ์๋๋ผ ํ์ฌ ์์ ์์ ๊ฐ์ง ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ํต๊ณผ์จ์ ์ ํ๋๋ฅผ ๋์ฌ๋ณผ ์ ์์
๊ฒ์ด๋ค. ๋ํ, ์์ ์๋ฌธ์์ ์๋ฏธ ์ ๋ณด๋ฅผ ์ด๋ ค ์๋งจํฑ(semantic)ํ ๊ตฌ์กฐ๋ฅผ ์ถ์ถํ๋ฉด ์์ ์์ธก์ ์ฑ๋ฅ์ด
๋์ฑ ๋์์ง ๊ฒ์ ๊ธฐ๋ํด๋ณผ ์ ์๋ค.
11
์ฐธ๊ณ ๋ฌธํ
[1] Poodl: Popong open data library. http://data.popong.com, 2014. [Accessed 2014-10-31].
[2] Peter J Mucha, Thomas Richardson, Kevin Macon, Mason A Porter, and Jukka-Pekka On-
nela. Community structure in time-dependent, multiscale, and multiplex networks. Science,
328(5980):876โ878, 2010.
[3] Keith T Poole and Howard Rosenthal. Congress: A political-economic history of roll call voting.
Oxford University Press, 1997.
[4] Tae Yano, Noah A Smith, and John D Wilkerson. Textual predictors of bill survival in congressional
committees. In Proceedings of the 2012 Conference of the North American Chapter of the Associ-
ation for Computational Linguistics: Human Language Technologies, pages 793โ802. Association
for Computational Linguistics, 2012.
12