+ All Categories
Home > Documents > pilsung [email protected] [email protected]/static/docs/TR/SNUDM-TR-2015-01.pdfprecision= TP...

pilsung [email protected] [email protected]/static/docs/TR/SNUDM-TR-2015-01.pdfprecision= TP...

Date post: 13-Mar-2020
Category:
Upload: others
View: 9 times
Download: 0 times
Share this document with a friend
12
SNU Data Mining Center SNUDM-TR-2015-01 ยท/ XHt โ€˜t : pt0 D $\ XH รผ ! @ [email protected] D1 pilsung [email protected] p1 [email protected] April 14, 2015 Abstract X @ xรผ tuLโ€” l @ ยฅD l\. t L x tuLt D Xp HX XHX รผ| โ€นโ€” !โ€˜ t, XHX p\ รผ ยท โ€”0| t รธx D LXp, XHX โ€”^ โ€นโ€” D| โ€˜ . l lโ€” X, XH H Xโ€ฐ รฆ XHรผ (\ T | หœX, \รผmm| `<\ XHX รผ| !tl. โ€น' Lโ€น@ \/รฆ (logistic regression), SVM, k-NN, t t (Naive Bayes), Xโ€น4(decision tree) รฆ / t. โ€˜Ht 4pt รผ J 0 ยคxโ€” t / X Lโ€น ยคP Uหœ 4% t` ยฅ` ยจ, \/รฆ รผ SVM รฆ โ€ž Lโ€นX โ€ฐ โ€น(t ๏ฌX. \โ€š pt0X D tt หœโ€” t ยคxโ€” Dt Uหœ@ หœ| lh<\h โ€น(D ยฅ`โ€น ยจ. 1 โ€˜ @mโ€” \ โ€˜D \. t ยท/ )ยฅ<\ โ€”โ€” 0| tuLโ€” |X ยฅt |0 L8โ€” ห›@ Lยท \D| t โ€ž XHXD lXp pยค| t X รฆ \D LX \. @|<\ Xโ€” Xt XHt หœ, โ€” โ€น, ยทหœ l โ€น, lX X, tยก, ฤฑX 6 Lหœ| pโ€” tLยท p, Lหœ| pโ€˜ Lยจ tรธ XHโ€” \ |X t XHX Ht p l ยท โ€”0 โ€ฐหœ `รธ. 18 mX โ€ฐ, XH, XH, lH รฆD xX J@ โ€˜H รผ XH@ 17.4%โ€” รผX, l X Xโ€”t X\ โ€˜H $\t รผ(@ 5.91%โ€” l\. โ€” Dยจ| XHX รผ 0L @ `รธ 8. |@\, 18 m XHt โ€น (| pXp <\ 470|tยจ. lp } XHt X โ€” XH รผX ยฅ1(likelihood)D !โ€˜ t ยทยคL? XHX รผยฅ1t @ โ€ฐ tu Lยทหœ\ p T รธ<\ รผ | โ€˜ , XH รผยฅ1t ๏ฌ@ โ€ฐ รผ D'X ,| | . \โ€š X 8 XHX รผ| XX !โ€˜ หœ lโ€ฆ 1โ€” 18 mโ€” X XH@ t 3,700 tD รผ t 10 โ€š ยท( Xt. โ€น 19 mX โ€ฐโ€” XH X t tยจ 5,000tD `โ€˜ xp, tรผ ห›@XHD 8 ||t Xp ห›@ รผ D't t. | X รผDTโ€˜ t, X 8
Transcript

SNU Data Mining Center SNUDM-TR-2015-01

์–ด๋–ค ์˜์•ˆ์ด ๋ฒ•๋ฅ ์ด ๋˜๋Š”๊ฐ€:

๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์„ ๊ณ ๋ คํ•œ ์˜์•ˆ ๊ฒฐ๊ณผ ์˜ˆ์ธก

๋ฐ•์€์ •

[email protected]

๊ฐ•ํ•„์„ฑ

pilsung [email protected]

์กฐ์„ฑ์ค€

[email protected]

April 14, 2015

Abstract

๋ฒ•์˜ ์ œ์ •์€ ๊ฐ ๊ฐœ์ธ๊ณผ ์—ฌ๋Ÿฌ ์ด์ต์ง‘๋‹จ์— ํฌ๊ณ  ์ž‘์€ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ์ด ๋•Œ ๊ฐœ๊ฐœ์ธ ๋˜๋Š” ์ด์ต์ง‘๋‹จ์ด

๋ฒ•์„ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ์ œ์•ˆํ•˜๋Š” ์˜์•ˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ์‚ฌ์ „์— ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์˜์•ˆ์˜ ์กฐ์†ํ•œ ํ†ต๊ณผ ๋‚ด์ง€ ํ๊ธฐ๋ฅผ

์œ„ํ•ด ์ ๊ทน์ ์ธ ํ–‰๋™์„ ์ทจํ•˜๊ฑฐ๋‚˜, ์˜์•ˆ์˜ ์ง‘ํ–‰์— ์•ž์„œ ์‚ฌ์ „์— ๋Œ€๋น„๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฐœ์˜์ž,

์˜์•ˆ์ œ์•ˆํ™˜๊ฒฝ๋“ฑ์˜์•ˆ๊ณผ๊ด€๋ จํ•œ๊ฐ์ข…๋ฉ”ํƒ€๋ณ€์ˆ˜๋ฅผ๋„์ถœํ•˜์—ฌ,๋Œ€ํ•œ๋ฏผ๊ตญ๊ตญํšŒ๋ฅผ๋Œ€์ƒ์œผ๋กœ์˜์•ˆ์˜๊ฒฐ๊ณผ๋ฅผ

์˜ˆ์ธกํ•ด๋ณธ๋‹ค. ์‚ฌ์šฉ๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„(logistic regression), SVM, k-NN, ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ

(Naive Bayes), ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด(decision tree) ๋“ฑ ๋‹ค์„ฏ ๊ฐ€์ง€์ด๋‹ค. ๋ฒ•๋ฅ ์•ˆ์ด ๋ฌด์กฐ๊ฑด ํ†ต๊ณผ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š”

๊ธฐ์ค€ ๋ชจ๋ธ์— ๋Œ€ํ•ด ๋‹ค์„ฏ ๊ฐœ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ชจ๋‘ ์ •ํ™•๋„๊ฐ€ 4% ์ด์ƒ ํ–ฅ์ƒ ๋˜์—ˆ์ง€๋งŒ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„๊ณผ

SVM๋“ฑํŠน์ •์•Œ๊ณ ๋ฆฌ์ฆ˜์˜๊ฒฝ์šฐ์žฌํ˜„์œจ์ด๋‚ฎ์•˜๋‹ค.ํ•œํŽธ๋ฐ์ดํ„ฐ์˜๋ถˆ๊ท ํ˜•์„ํ•ด์†Œํ•ด์ค€ํ›„์—๋Š”์ด์ „๋ชจ๋ธ์—

๋น„ํ•ด ์ •ํ™•๋„์™€ ์ •๋ฐ€๋„๋ฅผ ํฌ์ƒํ•จ์œผ๋กœ์จ ์žฌํ˜„์œจ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

1 ์„œ๋ก 

์ž…๋ฒ•์€ ์ž…๋ฒ•๊ตญ๊ฐ€์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค. ๋ฒ•์ด ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ ์ œ์ •๋˜๋Š๋ƒ์— ๋”ฐ๋ผ ์ด์ต์ง‘๋‹จ์—๊ฒŒ ๋ผ์น˜๋Š”

์˜ํ–ฅ์ด ๋‹ฌ๋ผ์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋งŽ์€ ๋‹จ์ฒด๊ฐ€ ๋กœ๋น„๋ฅผ ํ†ตํ•ด ํŠน์ • ์˜์•ˆ์˜ ์ž…๋ฒ•์„ ์ด‰๊ตฌํ•˜๊ฑฐ๋‚˜ ๋ฐ๋ชจ๋ฅผ ํ†ตํ•ด ๋ฐ˜๋Œ€ํ•˜๋Š”

๋“ฑ ๋‹ค์–‘ํ•œ ํ–‰๋™์„ ์ทจํ•˜๊ณค ํ•œ๋‹ค. ์ž…๋ฒ•์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฐœ์˜์ž์— ์˜ํ•ด ์˜์•ˆ์ด ์ ‘์ˆ˜๋œ ํ›„, ์œ„์›ํšŒ ์‹ฌ์‚ฌ, ์ฒด๊ณ„์ž

๊ตฌ ์‹ฌ์‚ฌ, ๋ณธํšŒ์˜ ์‹ฌ์˜, ์ •๋ถ€ ์ด์†ก, ๊ณตํฌ์˜ 6 ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ์ด๋ฃจ์–ด์ง€๊ฒŒ ๋˜๋Š”๋ฐ, ๊ฐ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น  ๋•Œ๋งˆ๋‹ค ํ•ด๋‹น

์˜์•ˆ์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€ ์ด๋ค„์ง€๊ณ  ์˜์•ˆ์˜ ๋Œ€์•ˆ์ด ๋ฐ˜์˜๋˜๊ฑฐ๋‚˜ ๊ทธ ์ž์ฒด๊ฐ€ ํ๊ธฐ๋˜๋Š” ๊ฒฝ์šฐ๋„ ์ƒ๋‹น์ˆ˜๋‹ค. ์ œ 18๋Œ€

๊ตญํšŒ์˜๊ฒฝ์šฐ,๊ฒฐ์˜์•ˆ,๋™์˜์•ˆ,์ถœ์„์š”๊ตฌ์•ˆ๋“ฑ์„์ œ์™ธํ•˜๊ณ ์ฒ ํšŒ๋˜์ง€์•Š์€๋ฒ•๋ฅ ์•ˆ์ค‘ํ†ต๊ณผ๋œ์˜์•ˆ์€ 17.4%์—

๋ถˆ๊ณผํ•˜๊ณ , ๊ทธ ์ค‘ ์ˆœ์ˆ˜ํ•˜๊ฒŒ ์˜์›์ด ๋ฐœ์˜ํ•œ ๋ฒ•๋ฅ ์•ˆ๋งŒ ๊ณ ๋ คํ•œ๋‹ค๋ฉด ํ†ต๊ณผ์œจ์€ 5.91%์— ๊ทธ์นœ๋‹ค. ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ฐ

์˜์•ˆ์˜ํ†ต๊ณผ์—ฌ๋ถ€๊ฐ€๊ฒฐ์ •๋˜๊ธฐ๊นŒ์ง€์†Œ์š”๋˜๋Š”์‹œ๊ฐ„์€์ƒ๋‹นํžˆ๊ธธ๋‹ค.์ผ๋ก€๋กœ, 18๋Œ€๊ตญํšŒ์˜์•ˆ๋“ค์ด์ฒ˜๋ฆฌ์ ˆ์ฐจ๋ฅผ

๊ฑฐ์น˜๋Š”๋ฐ๋Š” ํ‰๊ท ์ ์œผ๋กœ 470์ผ์ด์—ˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ๋งŒ์•ฝ ์˜์•ˆ์ด ๋ฐœ์˜๋˜๋Š” ์‹œ์ ์—์„œ ์˜์•ˆ ํ†ต๊ณผ์˜ ๊ฐ€๋Šฅ์„ฑ(likelihood)์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์–ด๋–จ๊นŒ?

์˜์•ˆ์˜ ํ†ต๊ณผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๊ฒฝ์šฐ ๊ฐ ์ด์ต ๋‹จ์ฒด๋ณ„๋กœ ์กฐ๊ธˆ ๋” ์ ๊ทน์ ์œผ๋กœ ํ†ต๊ณผ๋‚˜ ์ฒ ํšŒ๋ฅผ ์ง€์ง€ํ•  ์ˆ˜ ์žˆ๊ณ ,

์˜์•ˆ ํ†ต๊ณผ ๊ฐ€๋Šฅ์„ฑ์ด ๋‚ฎ์€ ๊ฒฝ์šฐ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์˜ ํˆฌ์ž๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค.

ํ•œํŽธ ์ •์น˜ ์ „๋ฌธ๊ฐ€๊ฐ€ ์˜์•ˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ํ•˜๋‚˜ํ•˜๋‚˜ ์˜ˆ์ธกํ•  ์ˆ˜๋„ ์žˆ์ง€๋งŒ ๊ทธ๋ฆผ 1์—์„œ ๋ณด๋“ฏ 18๋Œ€ ๊ตญํšŒ์—์„œ ๋ฐœ

์˜๋œ ์˜์•ˆ์€ ๋งคํ•ด 3,700 ๊ฑด์„ ์ดˆ๊ณผํ–ˆ๊ณ  ์ด๋Š” 1๋Œ€๋ถ€ํ„ฐ ๊พธ์ค€ํžˆ ์ฆ๊ฐ€๊ฐ€ ๋˜์–ด์˜จ ์ˆ˜์น˜์ด๋‹ค. ํ˜„์žฌ 19๋Œ€ ๊ตญํšŒ์˜

๊ฒฝ์šฐ์—๋Š” ์˜์•ˆ ๋ฐœ์˜ ๊ฑด์ˆ˜๊ฐ€ ํ•ด๋งˆ๋‹ค 5,000๊ฑด์„ ์ƒํšŒํ•  ์ „๋ง์ธ๋ฐ, ์ด์ฒ˜๋Ÿผ ๋งŽ์€ ์˜์•ˆ์„ ์ „๋ฌธ๊ฐ€๊ฐ€ ์ผ์ผ์ด ๊ฐ

์ •ํ•˜๋Š”๋ฐ๋Š” ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ์†Œ์š”๋  ๊ฒƒ์ด๋‹ค. ๋งŒ์ผ ๊ฐ์ •ํ•˜๋Š” ๊ณผ์ •์„ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์ •์น˜ ์ „๋ฌธ๊ฐ€๋Š”

๋ณด๋‹ค ํ†ต๊ณผ ํ™•๋ฅ ์ด ๋†’์€ ์˜์•ˆ์— ๋Œ€ํ•ด ์ง‘์ค‘์ ์œผ๋กœ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ๊ด€

์ ์ธ ์˜ˆ์ธก์„ ํ•˜๋ฉด ์ฃผ๊ด€์„ฑ์„ ๋ฐฐ์ œํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ ์œผ๋กœ ์˜์•ˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์€ ์ •์น˜

์ „๋ฌธ๊ฐ€์˜ ์˜๊ฒฌ์„ ๋ณด์™„ ๋‚ด์ง€๋Š” ๊ฐ•ํ™”ํ•˜๋Š” ํšจ๊ณผ๋ฅผ ๋‚ณ์„ ์ˆ˜ ์žˆ๋‹ค.

์ด๋Ÿฐ ๊ฐ€๋Šฅ์„ฑ์„ ๋‘๊ณ  ์ด๋ฏธ ๋ช‡๋ช‡ ์—ฐ๊ตฌ์ž๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜์•ˆ ์ฒ˜๋ฆฌ ๊ณผ์ •์„ ํƒ์ƒ‰ํ•ด ๋ณด๊ธฐ๋„ ํ•˜์˜€๋‹ค.

์˜์•ˆ์›๋ฌธ๊ธฐ๋ฐ˜์œผ๋กœ๋ฏธ๊ตญ์˜ํšŒ์—์„œ๊ฐ์˜์›์˜ํˆฌํ‘œ์˜ˆ์ธก์„์ˆ˜ํ–‰ํ•œ [?]๋Š”์ด์ƒ์ ๋ชจ๋ธ(ideal point model)์—

ํ…์ŠคํŠธ๋ฅผ ๋„์ž…ํ•˜์—ฌ 106-111๋Œ€ ์˜ํšŒ์˜ ํˆฌํ‘œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด 89%์˜ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ์–ป์–ด ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์˜

๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธํ•ด์ฃผ์—ˆ์œผ๋ฉฐ, [4]๋„ ์˜์•ˆ์˜ ๊ฐ์ข… ๋ฉ”ํƒ€๋ณ€์ˆ˜์™€ ์›๋ฌธ์„ ํ™œ์šฉํ•˜์—ฌ 109-110๋Œ€ ์˜ํšŒ์—์„œ ์˜์•ˆ์ด

์œ„์›ํšŒ๋ฅผ ํ†ต๊ณผํ• ์ง€์— ๋Œ€ํ•ด ํ‰๊ท  90.1%์˜ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ์–ป์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋“ค์€ ๋‚ด์žฌ์ ์œผ๋กœ ๋ฒ”์ฃผ ๋ถˆ๊ท ํ˜•

(class imbalance)๋ฌธ์ œ์ด๋‹ค.์‹ค์ œ๋กœ [?]์—์„œ๋Š” 15%์˜ํ‘œ๊ฐ€ yea๋ฅผ๋‚˜ํƒ€๋ƒˆ๊ณ  [4]๋„ 12.6%์˜์˜์•ˆ์ดํ†ต๊ณผํ•˜์ง€

๋ชปํ•˜์—ฌ, ๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ ์ด์ง„ ๋ถ„๋ฅ˜์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” 50% ์ •ํ™•๋„๋ฅผ ๊ธฐ์ค€ ๋ชจ๋ธ๋กœ ์‚ผ์ง€ ์•Š๊ณ  85%,

87.4%์„ ๊ธฐ์ค€์œผ๋กœ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜์—ฌ ๊ฐ 4%, 3%์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฒ”์ฃผ ๋ถˆ๊ท ํ˜•

๋ฌธ์ œ์—์„œ ์ •๋ฐ€๋„๋‚˜ ์žฌํ˜„์œจ์„ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  ์ •ํ™•๋„๋งŒ ๊ณ ๋ คํ–ˆ๋‹ค๋Š” ํ•œ๊ณ„์ ์ด ์žˆ๋‹ค.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

0

1,000

2,000

3,000

4,000

254334312300

843

339219190158190194205360364654814

2,148

3,737

n(b

ills

)p

eryea

r

๊ทธ๋ฆผ 1: ๊ตญํšŒ ๋Œ€์ˆ˜ ๋ณ„๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ์˜์•ˆ ๋ฐœ์˜ ๊ฐœ์ˆ˜

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์˜์•ˆ๊ณผ ๊ด€๋ จํ•œ ๊ฐ์ข… ๋ฉ”ํƒ€(meta) ๋ณ€์ˆ˜๋ฅผ ๋„์ถœํ•˜์—ฌ, ๋Œ€ํ•œ๋ฏผ๊ตญ ๊ตญํšŒ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์˜์•ˆ์˜

๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•ด๋ณธ๋‹ค. ํŠนํžˆ, ์˜์•ˆ์˜ ํ†ต๊ณผ ์—ฌ๋ถ€๋Š” ์ „ํ˜•์ ์ธ ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ(imbalanced data)๋กœ, ๋ถˆ๊ท ํ˜•์„ฑ์„

๊ณ ๋ คํ•œ ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์„ ์ฃผ์•ˆ์ ์œผ๋กœ ์‚ผ๋Š”๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š” 2008๋…„๋ถ€ํ„ฐ 2012๋…„์— ๊ฑธ์ณ 18๋Œ€ ๊ตญํšŒ์—์„œ

๋ฐœ์˜๋˜๊ณ  ์˜์›๋“ค์— ์˜ํ•ด ์ฒ ํšŒ๋˜์ง€ ์•Š์€ ์ด 13,405๊ฐœ์˜ ๋ฒ•์•ˆ์ด ์‚ฌ์šฉ๋˜์—ˆ์œผ๋ฉฐ ์‚ฌ์šฉ๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋กœ์ง€์Šคํ‹ฑ

ํšŒ๊ท€๋ถ„์„(logistic regression), SVM, k-NN, ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ(Naive Bayes), ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด(decision tree)

๋“ฑ ๋‹ค์„ฏ ๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•˜์˜€๋‹ค. ๋ฐœ์˜์ž, ์œ„์›ํšŒ, ์ œ์•ˆ ์‹œ๊ธฐ, ํ™˜๊ฒฝ ๋“ฑ์— ๊ด€ํ•œ 11๊ฐ€์ง€ ์ข…๋ฅ˜์˜ ๋ณ€์ˆ˜๋ฅผ

์‚ฌ์šฉํ•˜์˜€๋Š”๋ฐ ๋Œ€ํ‘œ๋ฐœ์˜์ž, ์†Œ๊ด€์œ„์›ํšŒ ๋“ฑ์˜ ๋ฒ”์ฃผํ˜•(categorical) ๋ณ€์ˆ˜๋ฅผ ์ด์ง„ ๋ณ€์ˆ˜ํ™”์‹œํ‚ค๋ฉด ์ด 372๊ฐœ์˜

๋ณ€์ˆ˜๊ฐ€ ๋œ๋‹ค. ํ•œํŽธ ์˜์•ˆ ์˜ˆ์ธก ๋ฌธ์ œ์—๋Š” ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์ด ์กด์žฌํ•˜๋ฏ€๋กœ, ์†Œ์ˆ˜ ๋ฒ”์ฃผ ๋ฐ์ดํ„ฐ์˜ ๋น„์šฉ์„ ํฌ๊ฒŒ

์„ค์ •ํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์„ ํ•ด์†Œํ•œ ํ›„ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„๊ณผ SVM์„ ์ด์šฉํ•ด ์ตœ์ข…์ ์ธ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ

๋„์ถœํ•˜์˜€๋‹ค.

๋ณธ ๋…ผ๋ฌธ์˜ ๊ตฌ์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๋จผ์ € 2์žฅ์—์„œ๋Š” ๊ธฐ์กด ์—ฐ๊ตฌ๋ฅผ ์‚ดํŽด๋ณธ ํ›„, 3์žฅ์—์„œ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃฌ๋‹ค.

4์žฅ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ค๋ช…ํ•˜๊ณ  ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฃฌ ํ›„, 5์žฅ์—์„œ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฐ๋‹ค.

2

2 ๊ด€๋ จ์—ฐ๊ตฌ

2.1 ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์˜ํšŒ ๋ถ„์„

๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ์˜ํšŒ์˜ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๋ ค๋Š” ์‹œ๋„๋Š” ๊ตญ๋‚ด์™ธ์—์„œ ๋‹ค์–‘ํ•˜๊ฒŒ ์žˆ์—ˆ๋‹ค. ๋ฏธ๊ตญ ์˜ํšŒ์˜ ๊ฒฝ์šฐ, ์˜์›

์˜ ํˆฌํ‘œ ๊ธฐ๋ก์„ ์ด์šฉํ•ด ์˜ํšŒ์˜ ํŽธํ–ฅ์„ฑ(polarity)๋ฅผ ํŒŒ์•…ํ•œ๋‹ค๋“ ๊ฐ€ [?, 3, ?] ๋‹น๋ก ์ด ์˜์›๋“ค์˜ ํˆฌํ‘œ์— ์–ผ๋งˆ๋‚˜

์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ [?] ๋“ฑ ํˆฌํ‘œ ๊ธฐ๋ก(roll call)์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋˜์—ˆ๋‹ค. ํŠนํžˆ [?]์—์„œ ์ œ์•ˆํ•œ D-

NOMINATE(Dynamic Nominal Three-step Estimation)์€ ์ฒ˜์Œ์œผ๋กœ ๋‹ค์ฐจ์›์ฒ™๋„๋ฒ•(MDS, multidimen-

sional scaling)์„ ์ด์šฉํ•˜์—ฌ ์˜ํšŒ ์˜์›๋“ค์˜ ์ด๋ฐ์˜ฌ๋กœ๊ธฐ๋ฅผ ๊ณต๊ฐ„์ƒ์— ์ „์‚ฌํ•œ ์—ฐ๊ตฌ๋กœ, ์ •์น˜์ธ ํ‘œ๊ฒฐ ํ–‰๋™์—

๋Œ€ํ•œ ์—ฐ๊ตฌ์˜ ๊ธฐ์ ์ด ๋˜์—ˆ๋‹ค. ์ดํ›„ ์ด๋“ค์€ [?]์—์„œ DW-NOMINATE(Dynamic, Weighted NOMINATE)

๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์ด๋ฐ์˜ฌ๋กœ๊ธฐ์˜ ๋™์ ์ธ ๋ณ€ํ™”๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ์—ฐ๊ตฌ๋กœ ํ™•์žฅํ•˜์˜€๋‹ค. ์ด ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด 1970๋…„๋Œ€

์ดํ›„ ๋ฏธ๊ตญ ์–‘๋‹น ๊ฐ„ ์ด๋ฐ์˜ฌ๋กœ๊ธฐ์  ๊ฑฐ๋ฆฌ๊ฐ€ ์ ์  ๋ฉ€์–ด์กŒ๋‹ค๋Š” ๊ฒƒ๊ณผ, ๋ฏธ๊ตญ ๋ฏผ์ฃผ๋‹น์ด โ€์™ผ์ชฝโ€์œผ๋กœ ๊ธฐ์šฐ๋Š” ๊ฒƒ๋ณด๋‹ค

๊ณตํ™”๋‹น์ด โ€์˜ค๋ฅธ์ชฝโ€์œผ๋กœ ๊ธฐ์šฐ๋Š” ๊ฒƒ์ด ๋” ์‹ฌํ–ˆ๋‹ค๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. [2]๋Š” ๋ฏธ์˜ํšŒ 1๋Œ€๋ถ€ํ„ฐ 110

๋Œ€๊นŒ์ง€์˜ ํˆฌํ‘œ ๋ฐ์ดํ„ฐ์— ๋‹ค์ธต ์ปค๋ฎค๋‹ˆํ‹ฐ ํƒ์ง€(multislice community detection)๋ฅผ ์ ์šฉํ•˜์—ฌ ์‹œ๊ฐ„์— ๋”ฐ๋ผ

์ •์น˜์ธ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ํ˜•์„ฑ์ด ์–ด๋–ป๊ฒŒ ๋‹ฌ๋ผ์ง€๋Š”์ง€ ์กฐ์‚ฌํ•˜์˜€์œผ๋ฉฐ ์ด๋ฅผ ํ†ตํ•ด ๋ฏธ์˜ํšŒ 15๋Œ€, 31๋Œ€, 37๋Œ€, 74๋Œ€์—

์ •์น˜์ธ๋“ค์˜ ํˆฌํ‘œ ์–‘์ƒ์— ํฐ ๋ณ€ํ™”๊ฐ€ ์žˆ์—ˆ๋‹ค๋Š” ์ ์„ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

๋˜, ์˜์•ˆ์€ ๋ณดํ†ต ํ•œ ๋ช…์˜ ๋ฐœ์˜์ž(sponsor)๊ฐ€ ์ œ์•ˆํ•˜์ง€๋งŒ, ์˜์•ˆ์˜ ํ‘œ๊ฒฐ์— ์•ž์„œ ์˜์•ˆ์— ๊ฐ•ํ•˜๊ฒŒ ์ฐฌ์„ฑํ•˜์—ฌ

ํž˜์„ ์‹ค์–ด์ฃผ๊ณ  ์‹ถ์€ ์˜์›์˜ ๊ฒฝ์šฐ ๊ณต๋™๋ฐœ์˜์ž(cosponsor)๊ฐ€ ๋˜๊ธฐ๋„ ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์ž„์˜์˜ ๋‘ ์ธ๋ฌผ ๊ฐ„ ๊ณต๋™

๋ฐœ์˜๊ฐ€ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ฐœ์ƒํ•  ๊ฒฝ์šฐ, ๋‘ ์˜์› ์‚ฌ์ด์˜ ์ด๋ฐ์˜ฌ๋กœ๊ธฐ ์œ ์‚ฌ๋„๊ฐ€ ๋†’๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. [?]๋Š” ์ด ๊ฐ€์ •์„

๊ธฐ๋ฐ˜์œผ๋กœ ๊ณต๋™ ๋ฐœ์˜ ๋ฐ์ดํ„ฐ๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์˜€๋‹ค. ์ด ์—ฐ๊ตฌ์—์„œ๋Š” ๊ณต๋™ ๋ฐœ์˜ ๋นˆ๋„์™€ ๊ฐ ์˜์•ˆ์˜ ๋ฐœ์˜์ž

์ˆ˜๋ฅผ์ด์šฉํ•˜์—ฌ์—ฐ๊ฒฐ๋„(connectedness)๋ผ๋Š”์ƒˆ๋กœ์šด์ง€ํ‘œ๋ฅผ์ œ์•ˆํ•จ์œผ๋กœ์จ์˜์›๊ฐ„์œ ์‚ฌ๋„๋ฅผ๊ณ„์‚ฐํ•˜์˜€๋‹ค.์ด

์ง€ํ‘œ์˜ ๊ฐ’์ด ๋†’์„์ˆ˜๋ก ์ž…๋ฒ•์—์„œ ํŠน์ • ์˜์›์˜ ์˜ํ–ฅ๋ ฅ์ด ๋†’๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ด๋ฅผ ํ†ตํ•ด ์–ด๋–ค

์˜์›์˜ ์˜์•ˆ์ด ๋” ํ†ต๊ณผ๋  ํ™•๋ฅ ์ด ๋†’์€์ง€ ์˜ˆ์ธกํ•˜์˜€๋‹ค.

๋ฏธ๊ตญ ์˜ํšŒ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋Œ€ํ•œ๋ฏผ๊ตญ ๊ตญํšŒ๋„ ์ƒ์„ฑ๋˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ๋‹นํžˆ ๋งŽ์œผ๋ฉฐ ์˜์•ˆ์˜ ์›๋ฌธ, ํšŒ์˜๋ก,

์˜์›์˜ ํšŒ์˜ ์ถœ๊ฒฐ ๊ธฐ๋ก, ์˜์•ˆ์— ๋Œ€ํ•œ ๋ณธํšŒ์˜ ํˆฌํ‘œ ๊ธฐ๋ก ๋“ฑ์ด ๋ชจ๋‘ ์ž ์žฌ์ ์ธ ์—ฐ๊ตฌ ๋Œ€์ƒ์ด๋‹ค. [?]์€ [?]์™€

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ณต๋™๋ฐœ์˜ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์˜€๋‹ค. ์ด ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ํ•œ๋‚˜๋ผ๋‹น์ด ์•ผ๋‹น์ด์—ˆ์„ ๋‹น์‹œ ์—ด๋ฆฐ์šฐ๋ฆฌ๋‹น

์†Œ์Šฅ ์˜์›๋“ค๋ณด๋‹ค ๊ฐ•ํ•œ ์˜ํ–ฅ๋ ฅ์„ ํ–‰์‚ฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ถ„์„๋˜์—ˆ๋‹ค. ๊ทธ ์™ธ์—๋„ ๋ฒ•์•ˆ์˜ ์ค‘์š”๋„ ์ง€ํ‘œ๋ฅผ ์ œ์•ˆํ•˜๊ณ 

์˜์› ๊ฐ„ ํˆฌํ‘œ ์œ ์‚ฌ๋„ ์ง€ํ‘œ๋ฅผ ๋งŒ๋“ค์–ด ๊ตญํšŒ๋ฅผ ์‹œ๊ฐํ™” ํ•˜๋Š” ๋“ฑ์˜ ์‹œ๋„๊ฐ€ ์žˆ์—ˆ๋‹ค [?, ?]. ์ด ์—ฐ๊ตฌ์—์„œ๋Š” 18

๋Œ€ ๊ตญํšŒ ๋ณธํšŒ์˜ ํ‘œ๊ฒฐ์— ์ƒ์ •๋œ ์ด 2,555๊ฑด์˜ ๋ฒ•์•ˆ์„ ๋ถ„์„ํ•˜์—ฌ ์Ÿ์ ๋ฒ•์•ˆ์ผ์ˆ˜๋ก ํ•œ๋‚˜๋ผ๋‹น ์†Œ์† ์˜์›๋“ค์˜

์‘์ง‘๋ ฅ์ด๋ฏผ์ฃผ๋‹น์†Œ์†์˜์›๋“ค๋ณด๋‹ค๊ฐ•ํ•˜๋‹ค๋Š”์ ๊ณผ,์ดˆ์„ ์˜์›๋“ค์ผ์ˆ˜๋ก๋‹น๋ก ์—๋ถ€ํ•ฉํ•˜๋Š”ํˆฌํ‘œ๋ฅผ๋งŽ์ดํ•œ๋‹ค๋Š”

์  ๋“ฑ์„ ๋ฐœ๊ฒฌํ•˜์˜€๋‹ค.

์ด๋ ‡๊ฒŒ ๊ณ„์‚ฐ์ •์น˜ํ•™(computational politics) ์˜์—ญ์—์„œ๋Š” ๊ทธ๋™์•ˆ ์„ค๋ช…์ (descriptive) ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํ–ˆ์œผ

๋ฉฐ, ๊ทธ๋ฅผ ํ† ๋Œ€๋กœ ์ •๋ถ€์™€ ์˜ํšŒ ์‹œ์Šคํ…œ, ์ •์ฑ… ๋“ฑ์— ๋Œ€ํ•œ ์ดํ•ด๊ฐ€ ์ฆ์ง„๋˜์—ˆ๋‹ค.

2.2 ์˜์•ˆ ๊ฒฐ๊ณผ ์˜ˆ์ธก

์˜์•ˆ์˜ ๊ฒฐ๊ณผ ์˜ˆ์ธก์— ๊ด€ํ•ด์„œ๋Š” ๋ฏธ์˜ํšŒ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€์žฅ ํ™œ๋ฐœํ•˜๋‹ค. ๊ทธ ์ค‘์—์„œ ๋จผ์ €, ์ด์ƒ์ 

๋ชจ๋ธ(ideal point model) [?] ๊ณผ ๋ฒ ์ด์ง€์•ˆ ์ถ”๋ก (Bayesian inference) ๊ธฐ๋ฐ˜์˜ ์ƒ์„ฑ์ (generative) ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ธ IPTM(ideal point topic model)์€ ์˜์•ˆ ์›๋ฌธ์„ ์ด์šฉํ•ด ๋ฏธ์˜ํšŒ์—์„œ ๊ฐ ์˜์›์˜ ํˆฌํ‘œ๋ฅผ ์˜ˆ์ธกํ–ˆ๋‹ค [?].

์ด ์—ฐ๊ตฌ์—์„œ๋Š” ๊ฐ ์˜์› u๋ฅผ ์ด์ƒ์  Xu์œผ๋กœ ๋งคํ•‘์‹œํ‚ค๊ณ , ๊ฐ ์˜์•ˆ d๋Š” ๋‚œ์ด๋„(difficulty) Ad์™€ ์ฐจ๋ณ„๋ ฅ

(discrimination) Bd์˜ ์กฐํ•ฉ์œผ๋กœ ๋‚˜ํƒ€๋ƒˆ๋‹ค. Xu, Ad, Bd๋Š” ๊ฐ๊ฐ ๊ฐ€์šฐ์‹œ์•ˆ ์„ ํ—˜๋ถ„ํฌ(Gaussian prior)๋ฅผ ์ 

3

์šฉํ•˜์—ฌ ์ถ”์ •ํ•˜๋ฉฐ, ํŠนํžˆ Ad, Bd์€ ์˜์•ˆ ์›๋ฌธ๊ณผ ํˆฌํ‘œ ๊ฒฐ๊ณผ๋ฅผ ์ด์šฉํ•œ sLDA(supervised LDA) ํ† ํ”ฝ ๋ชจ๋ธ์„

์‘์šฉํ•ด์„œ์–ป์—ˆ๋‹ค.์ด๋•Œํˆฌํ‘œ๊ฒฐ๊ณผ๋Š”์‹ 1์˜๋žœ๋คํšจ๊ณผ๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€๋ชจํ˜•(logistic regression with random

effects) ฯƒ(t)์„์ด์šฉํ•ด๋ถ„๋ฅ˜ํ–ˆ์œผ๋ฉฐ, 64๊ฐœ์˜ํ† ํ”ฝ์„์ด์šฉํ•œ๋ถ„๋ฅ˜์ •ํ™•๋„๋Š”๊ธฐ์ค€๋ชจ๋ธ 85%์—๋น„ํ•ด 4%ํ–ฅ์ƒ๋œ

89%๋ฅผ ์–ป์—ˆ๋‹ค.

p(vud = 1) = ฯƒ(xubd + ad) (1)

๋‹ค์Œ์œผ๋กœ, ์˜์•ˆ ์›๋ฌธ์„ ๋น„๋กฏํ•˜์—ฌ ๊ฐ์ข… ๋ฉ”ํƒ€๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด ์˜์•ˆ์ด ์œ„์›ํšŒ์—์„œ ํ†ต๊ณผ๊ฐ€ ๋ ์ง€ ์˜ˆ์ธกํ•˜๋Š”

์—ฐ๊ตฌ๋„ ์žˆ๋‹ค [4]. ์ด ์—ฐ๊ตฌ์—์„œ๋„ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ชจํ˜•์„ ์ด์šฉํ–ˆ์œผ๋ฉฐ, ๋ฉ”ํƒ€๋ณ€์ˆ˜๋งŒ ์ด์šฉํ•œ ๊ฒฝ์šฐ ์ด 3,731๊ฐœ

๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด 11.8% ์˜ค๋ฅ˜์œจ, ํ…์ŠคํŠธ ํŠน์ง•๊นŒ์ง€ ํ™œ์šฉํ•œ ๊ฒฝ์šฐ 28,411๊ฐœ ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด 9.6%์˜ ์˜ค๋ฅ˜์œจ์„

์–ป์–ด์„œ ๊ธฐ์ค€ ๋ชจ๋ธ ๋Œ€๋น„ ์•ฝ 3%์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ํ–ˆ๋‹ค. ํ…์ŠคํŠธ์—์„œ๋Š” ํ•ด๋‹น ์˜์•ˆ์˜ ์นดํ…Œ๊ณ ๋ฆฌ, ์œ„์›ํšŒ์˜ ์ž…์žฅ

์„ ์ถ”์ •ํ•œ ํ”„๋ก์‹œ ํˆฌํ‘œ(proxy vote), ์˜์•ˆ์—์„œ ์ถ”์ถœํ•œ BOW(bag of words) ๋“ฑ ์„ธ ๊ฐ€์ง€ ๊ด€์ ์—์„œ ํŠน์ง•์„

์ถ”์ถœํ–ˆ๋‹ค.

๊ทธ ์™ธ์—๋„ ์˜์›๊ณผ ์˜์•ˆ์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ด์งˆ ๊ทธ๋ž˜ํ”„(heterogeneous graph) ์ƒ์—์„œ ๋žœ๋ค์›Œํฌ(random

walks) ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๊ณผ๊ฑฐ ํˆฌํ‘œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ํˆฌํ‘œ ์˜ˆ์ธก ์—ฐ๊ตฌ๋„ ์žˆ์—ˆ์œผ๋ฉฐ [?], ์ตœ๊ทผ์—๋Š” ๋ฏธ์˜ํšŒ ๋ฐ 50

๊ฐœ ์ฃผ์˜ ์˜์•ˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•จ๊ณผ ๋™์‹œ์— ์›๋ฌธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜์•ˆ์˜ ์˜ํ–ฅ์„ ๋ฐ›์„๋งŒํ•œ ์‚ฐ์—… ๋ถ„์•ผ๋ฅผ ์ถ”์ •ํ•˜๋Š”

์Šคํƒ€ํŠธ์—…๋„ ๋“ฑ์žฅํ–ˆ๋‹ค. ์ด ์Šคํƒ€ํŠธ์—…์€ ์ž์‹ ๋“ค์˜ ์˜ˆ์ธก ์ •ํ™•๋„๊ฐ€ ์•ฝ 93%์˜ ์ •ํ™•๋„์— ์ด๋ฅธ๋‹ค๊ณ  ํ•œ๋‹ค [?].

๊ทธ๋Ÿฌ๋‚˜๊ธฐ์กด์˜์˜์•ˆ๊ฒฐ๊ณผ์˜ˆ์ธก์—ฐ๊ตฌ๋“ค์€์˜์•ˆ์˜ˆ์ธก๋ฌธ์ œ๊ฐ€์ „ํ˜•์ ์ธ๋ฐ์ดํ„ฐ๋ถˆ๊ท ํ˜•๋ฌธ์ œ์ž„์—๋„๋ถˆ๊ตฌํ•˜

๊ณ , ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์ •ํ™•๋„(accuracy) ์ค‘์‹ฌ์œผ๋กœ ํ–ˆ๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ฆ‰ ํ•™์Šต๋ชจ๋ธ์„ ์ด์šฉํ•ด ์ •ํ™•๋„๋ฅผ

์–ด๋Š์ •๋„ํ–ฅ์ƒ์‹œ์ผฐ๋‹คํ•˜๋”๋ผ๋„,์ •๋ฐ€๋„(precision)๋‚˜์žฌํ˜„์œจ(recall)์€์—ฌ์ „ํžˆ๋‚ฎ์„์ˆ˜์žˆ๋Š”๊ฒƒ์ด๋‹ค.์‹ค์ œ๋กœ

[4]์—์„œ๋„ ์˜ค๋ฅ˜์œจ์€ ๋‚ฎ์ง€๋งŒ ๋ฉ”ํƒ€๋ณ€์ˆ˜๋งŒ ์ด์šฉํ•œ ๊ฒฝ์šฐ F-์ ์ˆ˜๊ฐ€ 0.2343, ํ…์ŠคํŠธ ํŠน์ง•์„ ํ™œ์šฉํ•œ ๊ฒฝ์šฐ F-์ ์ˆ˜

๊ฐ€ 0.4976์— ๋ถˆ๊ณผํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ ์˜์•ˆ ์˜ˆ์ธก ๋ฌธ์ œ์˜ ๊ฒฝ์šฐ ์†Œ์ˆ˜ ๋ฒ”์ฃผ์ธ โ€œํ†ต๊ณผโ€ ์—ฌ๋ถ€๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ๋‹ค์ˆ˜ ๋ฒ”์ฃผ๋ฅผ

์ฐพ๋Š”๊ฒƒ๋ณด๋‹ค๋”์šฑ์ค‘์š”ํ•œ๋ฌธ์ œ์ด๊ธฐ๋•Œ๋ฌธ์—์žฌํ˜„์œจ๊ณผ,์žฌํ˜„์œจ์„๊ณ ๋ คํ•œ F-์ง€ํ‘œ์˜์ค‘์š”์„ฑ์„๊ฐ„๊ณผํ• ์ˆ˜์—†๋‹ค.

๋‹ค๋ฅธ ์—ฐ๊ตฌ๋“ค์€ ์ •๋ฐ€๋„, ์žฌํ˜„์œจ, F-์ ์ˆ˜ ์—†์ด ์ •ํ™•๋„๋งŒ ๊ณต๊ฐœํ–ˆ๋‹ค.

2.3 ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜• ํ•ด์†Œ

๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์˜์•ˆ ์˜ˆ์ธก์€ ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜์•ˆ์ด ํ†ต๊ณผํ•  ๊ฒƒ์ธ์ง€ ํ์ง€๋  ๊ฒƒ์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” 2๋ฒ”์ฃผ

๋ฌธ์ œ์ด๋‹ค. ๋ฌผ๋ก , ํ์ง€๋˜๋Š” ๋‹ค์–‘ํ•œ ์ผ€์ด์Šค๋ฅผ ๊ณ ๋ คํ•ด์„œ ๋‹ค๋ฒ”์ฃผ(multiclass) ๋ฌธ์ œ๋ฅผ ํ’€์–ด๋ณผ์ˆ˜๋„ ์žˆ์ง€๋งŒ ๋ณดํ†ต

์€ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ํ์ง€๋˜๋Š”์ง€๋ณด๋‹ค ํ†ต๊ณผ๊ฐ€ ๋˜๋Š”์ง€์˜ ์—ฌ๋ถ€๊ฐ€ ์ฃผ๋œ ๊ด€์‹ฌ์‚ฌ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ณด๋‹ค ๋‹จ์ˆœํ•œ 2๋ฒ”์ฃผ

๋ฌธ์ œ๋กœ ์น˜ํ™˜ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ์ด๋ ‡๊ฒŒ ๋‹ค๋ฒ”์ฃผ ๋ฌธ์ œ๋ฅผ 2๋ฒ”์ฃผ๋กœ ์น˜ํ™˜ํ•˜๊ณ  ๋‚˜๋ฉด, ๋ณดํ†ต์€ ํ†ต๊ณผ๋˜๋Š” ์˜์•ˆ์˜

์ˆ˜๊ฐ€ ํ์ง€๋˜๋Š” ์ˆ˜๋ณด๋‹ค ์ ๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ์ •๊ฒฝ๊ณ„(decision boundary)๋ฅผ ๋ณด๋‹ค ์ •๋ฐ€ํ•˜๊ฒŒ ํƒ์ƒ‰ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ทธ

๋ฒ”์ฃผ๊ฐ„ ๋ถˆ๊ท ํ˜•์„ฑ์„ ๊ณ ๋ คํ•ด์ฃผ๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•๋“ค๋กœ๋Š” ์–ธ๋” ์ƒ˜ํ”Œ๋ง(under sampling), ์˜ค๋ฒ„ ์ƒ˜ํ”Œ๋ง(over sampling), ๋น„์šฉ

์ฐจ๋ณ„(cost-sensitive)๋ฐฉ๋ฒ•๋“ฑ์ด์žˆ๋‹ค.์–ธ๋”์ƒ˜ํ”Œ๋ง์€๋‹ค์ˆ˜๋ฒ”์ฃผ์—์„œ์†Œ์ˆ˜๋ฒ”์ฃผ์˜์ˆ˜๋งŒํผ๋ฐ์ดํ„ฐ๋ฅผ์ƒ˜ํ”Œ๋งํ•˜

๋Š” ๊ฒƒ์ด๊ณ , ๋ฐ˜๋Œ€๋กœ ์˜ค๋ฒ„ ์ƒ˜ํ”Œ๋ง์€ ๋‹ค์ˆ˜ ๋ฒ”์ฃผ์˜ ์ˆ˜์— ๋งž์ถฐ ์†Œ์ˆ˜ ๋ฒ”์ฃผ์˜ ์ˆ˜๋ฅผ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘(bootstrapping)

ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋น„์šฉ ์ฐจ๋ณ„ ๋ฐฉ๋ฒ•์€ ๊ฐ ๋ฒ”์ฃผ์˜ ์˜ค๋ถ„๋ฅ˜์— ์„œ๋กœ ๋‹ค๋ฅธ ๋น„์šฉ์„ ๋ถ€๊ณผํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์†Œ์ˆ˜ ๋ฒ”์ฃผ์—

์†ํ•œ ๋ฐ์ดํ„ฐ์— ๋” ํฐ ๋น„์šฉ์„ ๋ถ€๊ณผํ•˜์—ฌ ์˜ค๋ถ„๋ฅ˜๋˜๋Š” ๊ฒƒ์„ ์ตœ์†Œํ™”ํ•œ๋‹ค. ์ด ์™ธ์—๋„ ์•™์ƒ๋ธ”์ด๋‚˜ [?] ์ปค๋„ ๊ธฐ๋ฐ˜,

์•กํ‹ฐ๋ธŒ ํ•™์Šต(active learning) ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ๋“ค๋„ ๋‹ค์ˆ˜ ์ œ์•ˆ๋˜์—ˆ๋‹ค. [?]

4

๊ทธ๋ฆผ 2: 18๋Œ€ ๊ตญํšŒ ๋ฒ•๋ฅ ์•ˆ๋“ค์˜ ์ฒ˜๋ฆฌ ์ ˆ์ฐจ๋ฅผ ๋‚˜ํƒ€๋‚ธ ์ƒํ‚ค ๋‹ค์ด์–ด๊ทธ๋žจ. ์‚ฌ๊ฐํ˜• ๋ชจ์–‘์˜ ๊ฐ ๋…ธ๋“œ(node) ์•ˆ

์ˆซ์ž๋Š” ํ•ด๋‹น ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์นœ ์˜์•ˆ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

3 ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์„ ๊ณ ๋ คํ•œ ์˜์•ˆ ๊ฒฐ๊ณผ ์˜ˆ์ธก

์˜์•ˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋จผ์ € ๋ฌธ์ œ์˜ ํŠน์„ฑ์„ ์ž˜ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. ๋จผ์ € ์˜์•ˆ์—๋Š” ๊ธฐ์กด

๋ฒ•๋ฅ ์„์ˆ˜์ •,ํ์ง€ํ•˜๊ฑฐ๋‚˜์ƒˆ๋กœ์šด๋ฒ•๋ฅ ์„์ œ์•ˆํ•˜๋Š”๋ฒ•๋ฅ ์•ˆ๋งŒ์žˆ๋Š”๊ฒƒ์ด์•„๋‹ˆ๋ผ๊ฒฐ์˜์•ˆ,๋™์˜์•ˆ,์ถœ์„์š”๊ตฌ์•ˆ,

์˜ˆ์‚ฐ์•ˆ, ์ •๋ถ€ ๊ด€๋ฆฌ์ง์˜ ์ž„๋ช…์„ ์ถœ์•ˆ ๋“ฑ๋„ ํฌํ•จ๋œ๋‹ค. ๊ทธ ์ค‘์—์„œ ์ผ๋ฐ˜ ์‹œ๋ฏผ ๋ฐ ๊ฐ์ข… ์ด์ต ๋‹จ์ฒด์— ์˜ํ–ฅ์„ ๊ฐ€์žฅ

ํฌ๊ฒŒ ์ฃผ๋Š” ๊ฒƒ์€ ๋ฒ•์„ ์ˆ˜์ •ํ•˜๋Š” ๋ฒ•๋ฅ ์•ˆ์ด๋ฏ€๋กœ, ์ด ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฒ•๋ฅ ์•ˆ์— ์ค‘์ ์„ ๋‘”๋‹ค.

๋‹ค์Œ์œผ๋กœ ๋ฒ•๋ฅ ์•ˆ์ด ์–ด๋–ค ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š”์ง€ ํŒŒ์•…ํ•ด๋ณด๊ณ , โ€œํ†ต๊ณผโ€๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ด ๋ฌด์—‡์„ ์˜๋ฏธํ•˜๋Š”์ง€

์ •์˜ํ•ด๋ณด์ž.๊ทธ๋ฆผ 2๋Š” 18๋Œ€๊ตญํšŒ์˜๋ฒ•๋ฅ ์•ˆ๋“ค์ด๊ฑฐ์น˜๋Š”๊ณผ์ •์„๋„์‹ํ™”ํ•œ์ƒํ‚ค๋‹ค์ด์–ด๊ทธ๋žจ(Sankey diagram)

์ด๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ ๋ฒ•๋ฅ ์•ˆ๋“ค์€ ์ž„๊ธฐ๋งŒ๋ฃŒํ๊ธฐ, ๋Œ€์•ˆ๋ฐ˜์˜ํ๊ธฐ, ํ๊ธฐ, ์ฒ ํšŒ, ๋ถ€๊ฒฐ, ๊ณตํฌ ๋“ฑ 6๊ฐ€์ง€ ์ƒํƒœ ์ค‘ ํ•˜๋‚˜๋กœ

๋๋‚˜๊ฒŒ๋œ๋‹ค.๊ทธ์ค‘์—์„œ๊ณตํฌ๋œ๋ฒ•๋ฅ ์•ˆ๋งŒ์ด์„ฑ๊ณต์ ์œผ๋กœ โ€œํ†ต๊ณผโ€๋˜์—ˆ๋‹ค๊ณ ๋ณผ์ˆ˜์žˆ์œผ๋ฉฐ,๊ณตํฌ๋‹จ๊ณ„์—์ด๋ฅด๊ธฐ

์ „์— ํ˜„์žฌ ๊ตญํšŒ์˜ ์ž„๊ธฐ๊ฐ€ ๋งŒ๋ฃŒ๋˜๊ฑฐ๋‚˜(์ž„๊ธฐ๋งŒ๋ฃŒํ๊ธฐ), ๊ฐ™์€ ๋ชฉ์ ์„ ๊ฐ€์ง„ ๋‹ค๋ฅธ ๋Œ€์•ˆ์ด ๋ฐ˜์˜๋˜์–ด ์›์•ˆ์ด ํ

๊ธฐ๋˜๊ฑฐ๋‚˜(๋Œ€์•ˆ๋ฐ˜์˜ํ๊ธฐ), ๋ฐœ์˜ํ•œ ์˜์›๋“ค์ด ์ฒ ํšŒ๋ฅผ ํ•˜๋Š” ๊ฒฝ์šฐ ๋ฒ•๋ฅ ์•ˆ์€ ๋ฒ•์ด ๋˜์ง€ ๋ชปํ•œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š”

๋ฒ•๋ฅ ์•ˆ์˜๋ฐœ์˜์‹œ์ ,์ฆ‰์ ‘์ˆ˜๋‹จ๊ณ„์—์„œํ•ด๋‹น๋ฒ•๋ฅ ์•ˆ์ด๊ณตํฌ๋ ๊ฒƒ์ธ์ง€์˜์—ฌ๋ถ€๋ฅผ์˜ˆ์ธกํ•˜๋Š”๊ฒƒ์„๋ชฉํ‘œ๋กœํ•œ๋‹ค.

๋‹ค์Œ์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ๋ณด๋ฉด, ์ด ๋ฌธ์ œ๋Š” ์ „ํ˜•์ ์ธ ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•(data imbalance) ๋ฌธ์ œ๋กœ, ํ๊ธฐ

๋˜๋Š” ๋ฒ•๋ฅ ์•ˆ์— ๋น„ํ•ด ํ†ต๊ณผ๋˜๋Š” ๋ฒ•๋ฅ ์•ˆ์ด ์ ๋‹ค๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ œ 18๋Œ€ ๊ตญํšŒ์—์„œ ๋ฐœ์˜๋œ ๋ฒ•๋ฅ ์•ˆ์˜

ํ†ต๊ณผ์œจ์€ 17.4%์ด๋ฏ€๋กœ, ๋ฒ•๋ฅ ์•ˆ์€ ๋ฌด์กฐ๊ฑด ํ๊ธฐ๋œ๋‹ค๋Š” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด๋„ 82.6%๋ผ๋Š” ๋†’์€ ์ •ํ™•๋„(accuracy)

๋ฅผ์–ป๊ฒŒ๋œ๋‹ค.๋”ฐ๋ผ์„œ๋ณธ์—ฐ๊ตฌ์—์„œ๋Š”์ •ํ™•๋„๋ฟ์•„๋‹ˆ๋ผ์ •๋ฐ€๋„(precision),์žฌํ˜„์œจ(recall), F-์ ์ˆ˜(F-score)

๋ฅผ๊ณ„์‚ฐํ•˜์—ฌ์„ฑ๋Šฅ์„์ ๊ฒ€ํ•˜๋ฉฐ,๋ฒ•๋ฅ ์•ˆ์ดํ•˜๋‚˜๋„ํ†ต๊ณผ๋˜์ง€์•Š๋Š”๋‹ค๋Š”์ •ํ™•๋„ 82.6%,์žฌํ˜„์œจ 0์ธ๋ชจ๋ธ์„๊ธฐ์ค€

๋ชจ๋ธ(baseline model)๋กœ ์ •ํ•œ๋‹ค. ์ •ํ™•๋„, ์ •๋ฐ€๋„, ์žฌํ˜„์œจ, F-์ ์ˆ˜ ๊ฐ๊ฐ์€ ์‹ (2)-(5)์— ๋‚˜ํƒ€๋ƒˆ๋‹ค.

accuracy =TP + TN

TP + FP + TN + FN(2)

5

precision =TP

TP + FP(3)

recall =TP

TP + FN(4)

F โˆ’ score = 2ร— precisionร— recallprecision+ recall

(5)

์—ฌ๊ธฐ์„œ TP๋Š”ํ†ต๊ณผ๋œ์˜์•ˆ์ดํ†ต๊ณผ๋๋‹ค๊ณ ์˜ˆ์ธกํ•œ๊ฒฝ์šฐ์˜์ˆ˜(true positive), FP๋Š”ํ๊ธฐ๋œ์˜์•ˆ์ดํ†ต๊ณผ๋

๋‹ค๊ณ ์˜ˆ์ธกํ•œ๊ฒฝ์šฐ์˜์ˆ˜(false positive), TN๋Š”ํ๊ธฐ๋œ์˜์•ˆ์ดํ๊ธฐ๋๋‹ค๊ณ ์˜ˆ์ธกํ•œ๊ฒฝ์šฐ์˜์ˆ˜(true negative),

FN์€ ํ†ต๊ณผ๋œ ์˜์•ˆ์ด ํ๊ธฐ๋๋‹ค๊ณ  ์˜ˆ์ธกํ•œ ๊ฒฝ์šฐ์˜ ์ˆ˜(false negative)๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด๋“ค์€ ํ‘œ 1๊ณผ ๊ฐ™์€ ํ˜ผ๋™

ํ–‰๋ ฌ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

Bill pass (predicted) Bill fail (predicted)

Bill pass (actual) TP FN

Bill fail (actual) FP TN

ํ‘œ 1: ํ˜ผ๋™ ํ–‰๋ ฌ

๋‘˜์งธ,๋ฐœ์˜๋ฐ์ดํ„ฐ์—์ฃผ๊ธฐ์™€๋ณ€ํ™”์ (changepoint)์ด์กด์žฌํ•œ๋‹ค.๋ณดํ†ต์˜์•ˆ๋ฐœ์˜์ˆ˜๋Š”์—ฐ๋ง์ด๋‹ค๊ฐ€์˜ฌ์ˆ˜๋ก

๋ฐœ์˜ ์˜์•ˆ์€ ์ ์ฐจ ์ฆ๊ฐ€ํ•˜๋‹ค๊ฐ€ ์—ฐ์ดˆ์— ๊ธ‰๋ฝํ•˜๋Š” ๋“ฑ ์ฃผ๊ธฐ์„ฑ์„ ๊ฐ€์ง„๋‹ค. ๋˜, ๋ณ€ํ™”์ ์ด๋ž€ ๋ฐ์ดํ„ฐ์— ์˜ํ–ฅ์„ ์ฃผ๋Š”

์š”์ธ์ด ํ•˜๋‚˜ ์ด์ƒ ๋ณ€ํ™”ํ•˜์—ฌ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ์–‘์ƒ์ด ๋ณ€ํ•˜๋Š” ๊ฒƒ์ธ๋ฐ, ๊ตญํšŒ์—์„œ๋„ ์„ ๊ฑฐ, ์˜์žฅ ๋ณ€๊ฒฝ ๋“ฑ์ด

์˜์•ˆ ๋ฐœ์˜ ๋ฐ ํ†ต๊ณผ ์—ฌ๋ถ€์— ์˜ํ–ฅ์„ ์ฃผ๊ณ  ์žˆ๋‹ค. ์œ„์˜ ํŠน์„ฑ ๋•Œ๋ฌธ์— ์˜์•ˆ ๋ฐœ์˜ ์‹œ์  ๋˜ํ•œ ์˜์•ˆ์˜ ๋ฐœ์˜์™€ ํ†ต๊ณผ๋ฅผ

์ดํ•ดํ•˜๋Š”๋ฐ ๋ฌด์‹œํ•  ์ˆ˜ ์—†๋Š” ์š”์ธ์ด ๋œ๋‹ค.

์˜ˆ์ธก์—๋Š”๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€๋ถ„์„(logistic regression), SVM, k-NN,๋‚˜์ด๋ธŒ๋ฒ ์ด์ฆˆ(Naive Bayes),์˜์‚ฌ๊ฒฐ์ •

๋‚˜๋ฌด(decision tree)๋“ฑ๋‹ค์„ฏ๊ฐ€์ง€์•Œ๊ณ ๋ฆฌ์ฆ˜์„์‚ฌ์šฉํ•œ๋‹ค.๋ฒ”์ฃผํ˜•๋ณ€์ˆ˜๋Š” 1-of-c์ฝ”๋”ฉ์„ํ•˜์—ฌ์ด์ง„๋ณ€์ˆ˜ํ™”ํ•˜๊ณ ,

์ˆซ์žํ˜• ๋ณ€์ˆ˜๋Š” ์ •๊ทœํ™”(normalize)ํ•œ๋‹ค.

4 ์‹คํ—˜

4.1 ๋ฐ์ดํ„ฐ

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” POODL: POpong Open Data Library[1]์—์„œ ์ œ๊ณตํ•˜๋Š” ๋Œ€ํ•œ๋ฏผ๊ตญ ์ •์น˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋ฅผ

์ด์šฉํ–ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋Š” ๊ตญํšŒ ์˜์•ˆ์ •๋ณด์‹œ์Šคํ…œ๊ณผ ์ค‘์•™์„ ๊ฑฐ๊ด€๋ฆฌ์œ„์›ํšŒ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ๋ณ‘ํ•ฉํ•œ

๊ฒƒ์œผ๋กœ, 1๋Œ€๋ถ€ํ„ฐ 19๋Œ€๊นŒ์ง€ ๊ตญํšŒ์˜์› ์„ ๊ฑฐ์— ์ถœ๋งˆ ๋˜๋Š” ๋‹น์„ ๋œ ์•ฝ 13,000๋ช… ๋ถ„์— ํ•ด๋‹นํ•˜๋Š” ์ •์น˜์ธ ๋ฐ์ด

ํ„ฐ์™€ ์•ฝ 54,000๊ฑด์˜ ์˜์•ˆ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋‹ค (2014๋…„ ๊ธฐ์ค€). ์ด ์—ฐ๊ตฌ์—์„œ๋Š” POODL์—์„œ ์ œ๊ณตํ•˜๋Š” 18๋Œ€

๊ตญํšŒ์˜์›, ์˜์•ˆ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ์˜ˆ์ธก์— ์‚ฌ์šฉํ•œ ๋ณ€์ˆ˜๋Š” ํ‘œ 2๊ณผ ๊ฐ™๋‹ค.

์—ฌ๊ธฐ์„œ ์‚ฌ์šฉ๋œ ๋ณ€์ˆ˜๋“ค์€ [4]์—์„œ ์ œ์•ˆ๋œ ๋ณ€์ˆ˜๋ฅผ ์ฐธ๊ณ ํ•˜์˜€์œผ๋ฉฐ, ์ด ์—ฐ๊ตฌ์—์„œ๋Š” ํŠนํžˆ ๋Œ€ํ‘œ๋ฐœ์˜์ž์˜ ์ •

๋‹น, ์˜์•ˆ์˜ ์†Œ๊ด€ ์œ„์›ํšŒ, ์˜์•ˆ์ด ๋ฐœ์˜๋œ ์‹œ๊ธฐ ๋“ฑ์ด ์ค‘์š”ํ•œ ๋ณ€์ˆ˜๋กœ ๊ผฝํ˜”๋‹ค. ํ•œํŽธ, ์œ„์— ๋‚˜์—ด๋œ ๋ณ€์ˆ˜ ์ค‘์—๋Š”

๊ณต๋™๋ฐœ์˜์ž์˜ ์ˆ˜๊ฐ€ ์žˆ๋Š”๋ฐ ๊ตญ๋‚ด์—์„œ๋Š” ์˜์› ๋ฐœ์˜ ์˜์•ˆ์˜ ๊ฒฝ์šฐ ๊ณต๋™๋ฐœ์˜์ž๊ฐ€ ์ตœ์†Œ 10์ธ์ด ๋˜์–ด์•ผ ํ•œ๋‹ค๋Š”

์ ๊ณผ ์ž…๋ฒ•๋ถ€์— ์†ํ•œ ์œ„์›์žฅ, ์˜์žฅ, ์˜์› ๋ฟ ์•„๋‹ˆ๋ผ ํ–‰์ •๋ถ€์—์„œ ๋ฐœ์˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด ๋…ํŠนํ•˜๋‹ค.

6

๋ณ€์ˆ˜ ๋ถ„๋ฅ˜ ์„ค๋ช…

๋ฐœ์˜์ž ๋Œ€ํ‘œ๋ฐœ์˜์ž

๋Œ€ํ‘œ๋ฐœ์˜์ž์˜ ์ •๋‹น

๋Œ€ํ‘œ๋ฐœ์˜์ž์˜ ์„ฑ๋ณ„

๋ฐœ์˜์ž์˜ ์œ ํ˜• (์œ„์›์žฅ, ์˜์žฅ, ์ •๋ถ€, ์˜์›, ๊ธฐํƒ€)

๊ณต๋™๋ฐœ์˜์ž ์ˆ˜

๋ฐœ์˜์ž ์ค‘ ๋‹ค์ˆ˜ ์ •๋‹น

๋ฐœ์˜์ž ์ค‘ ๋‹ค์ˆ˜ ์ •๋‹น์˜ ๋น„์œจ

๋ฐœ์˜์ž ์ค‘ ์ œ1์ •๋‹น ์†Œ์†์ž ๋น„์œจ

์œ„์›ํšŒ ์˜์•ˆ์˜ ์†Œ๊ด€ ์œ„์›ํšŒ

๊ธฐํƒ€ ๋ฐœ์˜์ผ์˜ ๊ตญํšŒ ์‹œ์ž‘์ผ๋กœ๋ถ€ํ„ฐ์˜ ์ผ์ˆ˜

๋ฐœ์˜์ผ์˜ ์›”(month)

๋ฐœ์˜์ผ์˜ ๊ตญํšŒ ์—ฐ์ฐจ(1,2,3,4๋…„)

ํ‘œ 2: ๊ณ ๋ ค๋œ ๋ณ€์ˆ˜๋“ค

18๋Œ€ ๊ตญํšŒ์—๋Š” ์ด 14,947๊ฐœ์˜ ์˜์•ˆ์ด ๋ฐœ์˜๋˜์—ˆ๋Š”๋ฐ, ๊ทธ ์ค‘์—์„œ 13,913๊ฐœ์˜ ์˜์•ˆ์ด ๋ฒ•๋ฅ  ์ˆ˜์ •์•ˆ์ด์—ˆ๊ณ ,

13,405๊ฐœ์˜์˜์•ˆ์ด๋ฐœ์˜์ž๋“ค์—์˜ํ•ด์ฒ ํšŒ๋˜์ง€์•Š๊ณ ๋‚จ์•˜๋‹ค.๋ฐœ์˜์ž์—์˜ํ•ด์ฒ ํšŒ๋˜์ง€์•Š์œผ๋ฉด์„œ์ตœ์ข…์ ์œผ๋กœ

โ€œํ†ต๊ณผโ€๊ฐ€ ๋˜์–ด ๋ฒ•๋ฅ ์ด ๋œ ๋ฒ•๋ฅ ์•ˆ์€ ์•ฝ 17.4%์ธ ์ด 2,335๊ฐœ์˜€๋‹ค.

4.2 ๋ณ€์ˆ˜ ์„ ํƒ

์ž…๋ฒ•์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” ๋ณ€์ˆ˜๊ฐ€ ๋ฌด์—‡์ธ์ง€ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ๋ณ€์ˆ˜ ํ•„ํ„ฐ ๋ณ€์ˆ˜ ์„ ํƒ๋ฒ•์ธ (univariate

filter variable selection) ์นด์ด ์ œ๊ณฑ ํ†ต๊ณ„๋Ÿ‰ (chi-square statistics)๋ฅผ ์ด์šฉํ•ด ์ƒ์œ„ k๊ฐœ์˜ ๋ณ€์ˆ˜๋ฅผ ๋ฝ‘์•„๋ณด

์•˜๋‹ค. ์นด์ด ์ œ๊ณฑ ํ†ต๊ณ„๋Ÿ‰์€ ์ข…์†๋ณ€์ˆ˜์— ์˜ํ–ฅ๋ ฅ์ด ํฐ ๋…๋ฆฝ๋ณ€์ˆ˜ ํ•˜๋‚˜ํ•˜๋‚˜๊ฐ€ ์˜ˆ์ธก ๋ชจํ˜•์— ๊ธฐ์—ฌํ•˜๋Š” ์ •๋„๋ฅผ

๊ณ„์‚ฐํ•˜๋Š”๊ฒƒ์œผ๋กœ,๋ณ€์ˆ˜๊ฐ„๊ตํ˜ธ์ž‘์šฉ์€๊ณ ๋ คํ•˜์ง€์•Š์ง€๋งŒ๋ณ€์ˆ˜์˜์ค‘์š”๋„๋ฅผ๊ฐ„๋‹จํžˆ๋„์ถœํ•˜๊ธฐ์—์ข‹์€๋ฐฉ์‹์ด๋‹ค.

ํŠนํžˆ, ์˜์•ˆ์˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ๊ฐ™์ด ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ๋‚˜, ์‹ฌ์ง€์–ด ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์†Œ(sparse)ํ•œ ๊ฒฝ์šฐ์—๋„

์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์–ด ๋ณธ ์—ฐ๊ตฌ์˜ ๋ฐ์ดํ„ฐ์…‹์— ์ ํ•ฉํ•˜๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค [?]. ์นด์ด ์ œ๊ณฑ ํ†ต๊ณ„๋Ÿ‰์„

๋„์ถœํ•œ ๊ฒฐ๊ณผ ์•ž์„œ ์–ธ๊ธ‰๋œ ๋ณ€์ˆ˜ ์ค‘ ๊ณต๋™๋ฐœ์˜์ž ์ˆ˜๊ฐ€ ๊ฐ€์žฅ ์„ค๋ช…๋ ฅ์ด ํฐ ๋ณ€์ˆ˜๋กœ ๋ฝ‘ํ˜”์œผ๋ฉฐ ๋‹ค์Œ์œผ๋กœ ๋ฐœ์˜์ž์˜

์œ ํ˜• ์ค‘ ์œ„์›์žฅ, ์˜์›, ์ •๋ถ€ ๋ฐœ์˜ ์—ฌ๋ถ€, ๊ทธ๋ฆฌ๊ณ  ๋ฐœ์˜์ผ์˜ ๊ตญํšŒ ์‹œ์ž‘์ผ๋กœ๋ถ€ํ„ฐ์˜ ์ผ์ˆ˜, ๋ฐœ์˜์ž ์ค‘ ์ œ1์ •๋‹น

์†Œ์†์ž ๋น„์œจ์ด ์ˆœ์ฐจ์ ์œผ๋กœ ๋“ฑ์žฅํ–ˆ๋‹ค.

4.3 ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜

์‹คํ—˜์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋˜์—ˆ๋Š”๋ฐ, ๋จผ์ € ํ‘œ 1์˜ ๋ณ€์ˆ˜๋“ค์„ ์ด์šฉํ•˜์—ฌ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„, SVM, k-NN,

๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ, ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด ๋“ฑ ๋‹ค์„ฏ ๊ฐœ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•ด ์˜์•ˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธก ํ•ด๋ณด๊ณ , ๋‘๋ฒˆ์งธ๋กœ

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„๊ณผ SVM์„ ์ด์šฉํ•ด ๋ฐ์ดํ„ฐ์˜ ๋ถˆ๊ท ํ˜•์„ ์ฒ˜๋ฆฌํ•œ ํ›„ ๊ฒฐ๊ณผ ์˜ˆ์ธก์„ ํ•˜์˜€๋‹ค.

4.3.1 ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„(logistic regression)์€ ๋กœ์ง“(logit), ๋˜๋Š” MaxEnt๋กœ ๋ถˆ๋ฆฌ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ข…์†๋ณ€์ˆ˜ y

๊ฐ€ ์‹ค์ˆ˜ํ˜•์ธ ์ผ๋ฐ˜ ์„ ํ˜•ํšŒ๊ท€๋ถ„์„๊ณผ๋Š” ๋‹ฌ๋ฆฌ ์ข…์†๋ณ€์ˆ˜๊ฐ€ ๋ฒ”์ฃผํ˜•์ธ ๊ฒฝ์šฐ๋ฅผ ๋‹ค๋ฃฌ๋‹ค. ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜ ฯƒ(t) =

7

๋ฒˆํ˜ธ ๋ณ€์ˆ˜

1 ๊ณต๋™๋ฐœ์˜์ž ์ˆ˜

2 ๋ฐœ์˜์ž์˜ ์œ ํ˜• (์œ„์›์žฅ)

3 ๋ฐœ์˜์ž์˜ ์œ ํ˜• (์˜์›)

4 ๋Œ€ํ‘œ๋ฐœ์˜์ž (์นœ๋ฐ•์—ฐ๋Œ€ ์ •์˜ํฌ)

5 ๋ฐœ์˜์ž์˜ ์œ ํ˜• (์ •๋ถ€)

6 ๋ฐœ์˜์ผ์˜ ๊ตญํšŒ ์‹œ์ž‘์ผ๋กœ๋ถ€ํ„ฐ์˜ ์ผ์ˆ˜

7 ๋ฐœ์˜์ž ์ค‘ ์ œ1์ •๋‹น ์†Œ์†์ž ๋น„์œจ

8 ๋Œ€ํ‘œ๋ฐœ์˜์ž์˜ ์ •๋‹น (ํ•œ๋‚˜๋ผ๋‹น)

9 ์˜์•ˆ์˜ ์†Œ๊ด€ ์œ„์›ํšŒ (๊ทœ์ œ๊ฐœํ˜ํŠน๋ณ„์œ„์›ํšŒ)

10 ๋Œ€ํ‘œ๋ฐœ์˜์ž (ํ†ตํ•ฉ๋ฏผ์ฃผ๋‹น ์ตœ์ฒ ๊ตญ)

ํ‘œ 3: ์„ ํƒ๋œ ์ƒ์œ„ 10๊ฐœ์˜ ๋ณ€์ˆ˜

1/1 + eโˆ’t๋ฅผ ์ด์šฉํ•˜์—ฌ ์•„๋ž˜์˜ ์‹ (6)๊ณผ ๊ฐ™์ด x์˜ ๋ฒ”์ฃผ y๊ฐ€ 1์ด ๋  ํ™•๋ฅ  F (x)๋ฅผ ๊ตฌํ•˜๋ฉฐ, ํŒŒ๋ผ๋ฏธํ„ฐ ฮฒi์˜ ์ถ”

์ •์—๋Š”์ตœ์†Œ์ž์Šน๋ฒ•(least squares)๋ฅผ์‚ฌ์šฉํ•˜๋Š”์„ ํ˜•ํšŒ๊ท€๋ถ„์„๊ณผ๋Š”๋‹ฌ๋ฆฌ์ตœ๋Œ€์šฐ๋„๋ฒ•(maximum likelihood)

์„ ์‚ฌ์šฉํ•œ๋‹ค.

F (x) = p(y = 1|x) = ฯƒ(ฮฒ0 + ฮฒ1x1 + ...+ ฮฒmxm) =1

1 + eโˆ’(ฮฒ0+ฮฒ1x1+...+ฮฒmxm)(6)

4.3.2 SVM

์•ž์„œ ๊ฑฐ๋ก ํ•œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์€ ์ž…๋ ฅ๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ์ถœ๋ ฅ๊ฐ’์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ์ถ”์ •ํ•˜๋Š” ์ƒ์„ฑ์ 

(generative) ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ๋ฐ ๋ฐ˜ํ•ด, SVM(support vector machine)์€ ๋ณ„๋„์˜ ํ™•๋ฅ  ์ถ”์ • ์—†์ด ๊ฒฐ๊ณผ๋ฅผ ์ง์ ‘

์ ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ํŒ๋ณ„์ (discriminative) ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ๋Š” ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„์„ ๊ณ ์ฐจ์›์˜ ๊ณต๊ฐ„์œผ๋กœ

๋ณ€ํ™˜ํ•˜์—ฌ ๋ฒ”์ฃผ ๊ฐ„ ๋งˆ์ง„(margin)์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ•˜์ดํผํ”Œ๋ ˆ์ธ์„ ์ฐพ๋Š” 2์ฐจ ์ตœ์ ํ™”(quadratic optimization)

๋ฌธ์ œ๋ฅผ ํ‘ผ๋‹ค. ์ฆ‰, w๋ฅผ x์— ๋Œ€ํ•œ ๋ฒ•์„  ๋ฒกํ„ฐ(normal vector)๋ผ๊ณ  ํ•˜๊ณ  x์— ๋Œ€ํ•œ ๋ณ€ํ™˜ ํ•จ์ˆ˜ ฮฆ(x)๋ฅผ ์ •์˜

ํ•˜๋ฉด ํ•˜์ดํผํ”Œ๋ ˆ์ธ์€ w ยท ฮฆ(x) โˆ’ b = 0๋กœ ์“ธ ์ˆ˜ ์žˆ๋‹ค. ๋˜, ๋น„์„ ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์šฉํ•˜๊ธฐ ์œ„ํ•ด i๋ฒˆ์งธ ๊ฐœ์ฒด๊ฐ€

๋งˆ์ง„์„ ๋ฒ—์–ด๋‚  ๋•Œ ํŽ˜๋„ํ‹ฐ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ฮพi๋ผ๊ณ  ํ•˜๊ณ , ๋งˆ์ง„๊ณผ ์˜ค๋ถ„๋ฅ˜์— ๋Œ€ํ•œ ์ค‘์š”๋„๋ฅผ ์ •ํ•˜๋Š” ์ƒ์ˆ˜ C๋ฅผ

๋„์ž…ํ•˜๋ฉด ์ตœ์ ํ™” ๋ฌธ์ œ์—์„œ ๋ชฉ์ ์‹์€ ์‹ (7)์ด ๋˜๋ฉฐ, ์‹ (8), (9)์˜ ๋‘ ๊ฐ€์ง€ ์ œ์•ฝ์กฐ๊ฑด์„ ๊ฐ€์ง„๋‹ค.

arg minw,ฮพ,b

1

2||w||2 + C

nโˆ‘i=1

ฮพi (7)

yi(w ยท ฮฆ(xi)โˆ’ b) โ‰ฅ 1โˆ’ ฮพi(i = 1, ..., n) (8)

ฮพi โ‰ฅ 0(i = 1, ..., n) (9)

์—ฌ๊ธฐ์„œ ํŠนํžˆ K(xi,xj) = ฮฆ(xi) ยท ฮฆ(xj)๋ฅผ ์ปค๋„ ํ•จ์ˆ˜(kernel function)๋ผ๊ณ  ํ•˜๋ฉฐ, ๋‹คํ•ญ์‹(polynomial),

์‹œ๊ทธ๋ชจ์ด๋“œ(sigmoid), RBF ์ปค๋„ ๋“ฑ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” RBF ์ปค๋„์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

8

4.3.3 k-NN

๊ฑฐ๋ฆฌ์ƒ์œผ๋กœ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด k๊ฐœ ์ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํˆฌํ‘œํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ๋ณ„๋„์˜ ํ•™์Šต๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜์ง€ ์•Š๋Š”๋‹ค. ์ฆ‰, ๊ฐ

๋ฒ”์ฃผ๋ฅผ l์ด๋ผํ•˜๋ฉด y์— ๋Œ€ํ•œ ์˜ˆ์ธก๊ฐ’์€ ๋‹ค์Œ์˜ ์‹ (10)๊ณผ ๊ฐ™์ด ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

y(x) = argmaxl

โˆ‘xjโˆˆN(x)

I(yj = l) (10)

4.3.4 ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ

๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ(naive Bayes)๋Š” ๋ฒ ์ด์ฆˆ ์ด๋ก (Bayes Theorem)์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ„๋‹จํ•œ ํ™•๋ฅ ๋ชจํ˜•์œผ๋กœ, ๋ณ€์ˆ˜๋“ค ๊ฐ„

๋…๋ฆฝ์„ฑ(independence)๋ฅผ ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ ์ด๋‹ค. y์— ๋Œ€ํ•œ ์˜ˆ์ธก๊ฐ’์€ ๋‹ค์Œ์˜ ์‹ (11)๋ฅผ ๋”ฐ๋ฅธ๋‹ค.

y(x) = argmaxyP (y)

nโˆi=1

P (xi|y) (11)

4.3.5 ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด

์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด(decision tree)๋Š”ํŠน์ •์ง€ํ‘œ๋ฅผ๊ธฐ์ค€์œผ๋กœ๋ฐ์ดํ„ฐ๋ฅผ๊ฐ€์žฅ์ž˜๊ฐ€๋ฅด๋Š”์ ์„๋ฐ˜๋ณต์ ์œผ๋กœ(iterative)

์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ์ง€ํ‘œ๋กœ๋Š” ์‹ (12)์˜ ์ง€๋‹ˆ ๋ถˆ์ˆœ๋„(Gini impurity) ๋˜๋Š” ์‹ (13)์˜ ์—”ํŠธ

๋กœํ”ผ(entropy) ๋“ฑ์ด ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ pk๋Š” k ๋ฒˆ์งธ ๋ฒ”์ฃผ๋กœ ๋ ˆ์ด๋ธ”๋ง๋œ ๋ฐ์ดํ„ฐ์˜ ๋น„์œจ์ด๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด

์ค‘ ์ง€๋‹ˆ ๋ถˆ์ˆœ๋„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜์˜€๋‹ค.

IG(A) = 1โˆ’mโˆ‘k=1

p2k (12)

IE(A) = โˆ’mโˆ‘k=1

p2k log2(pk) (13)

4.4 ์‹คํ—˜ ๊ฒฐ๊ณผ

๋จผ์ €, ์•ž์˜ ๋‹ค์„ฏ ๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•˜์—ฌ ์˜์•ˆ์„ ์˜ˆ์ธกํ•œ ์ฒซ ๋ฒˆ์งธ ์‹คํ—˜์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋Š” ํ‘œ 4์™€ ๊ฐ™๋‹ค. ๊ณผ์ 

ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ—˜๋ณ„๋กœ 10-fold cross validation์„ ์ ์šฉํ•˜์—ฌ ๊ฐ ์ง€ํ‘œ์— ๋Œ€ํ•œ ํ‰๊ท ๊ฐ’์„ ๊ธฐ๋กํ•˜์˜€๋‹ค.

์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ •ํ™•๋„๋Š” 86.8%์—์„œ 91.1%๋กœ ๊ธฐ์ค€ ๋ชจ๋ธ์˜ 82.6%์— ๋น„ํ•ด ์ „๋ฐ˜์ ์œผ๋กœ 4% ์ด์ƒ ์ƒ์Šนํ•˜์˜€๊ณ 

์˜์•ˆ ์˜ˆ์ธก ์—ฐ๊ตฌ์—์„œ ๊ฐ€์žฅ ํ™œ๋ฐœํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜๋Š” ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์ด ๊ฐ€์žฅ ๋†’์•˜์ง€๋งŒ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐ„ ํŽธ์ฐจ๋Š”

ํฌ์ง€ ์•Š์•˜๋‹ค. ํ•œํŽธ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„๊ณผ SVM์˜ ์žฌํ˜„์œจ์€ 40-50% ์ˆ˜์ค€์œผ๋กœ, k-NN์ด๋‚˜ ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ,

์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด์—๋น„ํ•ด์žฌํ˜„์œจ์ด 20%์ด์ƒ๋–จ์–ด์ง€๋Š”๋ฐ˜๋ฉด์ •๋ฐ€๋„๋Š”๋†’๊ฒŒ๋„์ถœ๋˜์—ˆ๋‹ค.๊ฒฐ๊ณผ์ ์œผ๋กœ์•Œ๊ณ ๋ฆฌ์ฆ˜

๊ฐ„ F-์ ์ˆ˜๋Š” ํฐ ํŽธ์ฐจ๊ฐ€ ์—†์—ˆ๊ณ , ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด๊ฐ€ ๊ฐ€์žฅ ๋†’์€ F-์ ์ˆ˜๋ฅผ ์–ป์—ˆ๋‹ค.

๋‘ ๋ฒˆ์งธ ์‹คํ—˜์€ ๋ฐ์ดํ„ฐ์˜ ๋ถˆ๊ท ํ˜•์„ ์ฒ˜๋ฆฌํ•œ ํ›„ ๊ฒฐ๊ณผ ์˜ˆ์ธก์„ ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ๋ถˆ๊ท ํ˜•์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ

๊ฐ ๋ฒ”์ฃผ(class)์˜ ๋น„์œจ์— ๋”ฐ๋ผ ์†Œ์ˆ˜ ๋ฒ”์ฃผ์˜ ์˜ค๋ถ„๋ฅ˜ ๋น„์šฉ์„ ๊ฐ€์ค‘ํ•จ์œผ๋กœ์จ ํ•ด์†Œํ–ˆ๋‹ค. ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์•ž์˜ ๋‹ค์„ฏ

๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ค‘ ์ •ํ™•๋„๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ๋‘ ๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด์ž, ์˜์•ˆ ์—ฐ๊ตฌ์—์„œ ๊ฐ€์žฅ ๋นˆ๋ฒˆํ•˜๊ฒŒ ํ™œ์šฉ๋˜๋Š” ๋กœ

์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„๊ณผ SVM์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ด ์‹คํ—˜์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋Š” ํ‘œ 5๊ณผ ๊ฐ™๋‹ค. ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ •ํ™•๋„์™€ ์ •๋ฐ€๋„๋Š”

์•ž์„  ์‹คํ—˜์— ๋น„ํ•ด ๋‹ค์†Œ ๋–จ์–ด์กŒ์ง€๋งŒ, ์žฌํ˜„์œจ์€ ๊ฐ๊ฐ 55.2%์—์„œ 74.9%์™€, 43.9%์—์„œ 74.93%์œผ๋กœ ํฌ๊ฒŒ ์ƒ

์Šนํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜• ๋ณด์ •์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์‹ค์ œ๋กœ ์˜์•ˆ ์˜ˆ์ธก์—์„œ๋Š” ํ†ต๊ณผ๋˜์ง€ ์•Š๋Š” ์˜์•ˆ์„

ํ†ต๊ณผ๋œ๋‹ค๊ณ  ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ†ต๊ณผ๋˜๋Š” ์˜์•ˆ์„ ํ†ต๊ณผ๋˜์ง€ ์•Š๋Š”๋‹ค๊ณ  ํ•˜๋Š” ๊ฒƒ์˜ ๋น„์šฉ์ด ํฌ๊ธฐ ๋•Œ๋ฌธ์— ์ •๋ฐ€๋„๋ณด๋‹ค

9

๋ถ„๋ฅ˜๊ธฐ ์ •ํ™•๋„(accuracy) ์ •๋ฐ€๋„(precision) ์žฌํ˜„์œจ(recall) F-์ ์ˆ˜

Logistic regression 0.9106 0.9107 0.5521 0.6601

SVM 0.9018 0.9950 0.4394 0.5596

k-NN 0.8683 0.6047 0.7493 0.6613

Naive Bayes 0.8717 0.6073 0.7438 0.6645

Decision tree 0.8786 0.6281 0.7447 0.6773

ํ‘œ 4: ๋‹ค์„ฏ ๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์˜์•ˆ ๊ฒฐ๊ณผ ์˜ˆ์ธก ์„ฑ๋Šฅ

์žฌํ˜„์œจ์„ ๋†’์ด๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•œํŽธ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์˜ ๊ฒฝ์šฐ ์•ž์„œ F-์ ์ˆ˜ ๊ธฐ์ค€์œผ๋กœ

๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋˜ k-NN๊ณผ ๋น„๊ตํ•ด๋„ ์•ฝ๊ฐ„์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

๋ถ„๋ฅ˜๊ธฐ ์ •ํ™•๋„(accuracy) ์ •๋ฐ€๋„(precision) ์žฌํ˜„์œจ(recall) F-์ ์ˆ˜

Logistic regression 0.8794 0.6261 0.7487 0.6791

SVM 0.8640 0.5828 0.7493 0.6512

ํ‘œ 5: ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์„ ํ•ด์†Œํ•œ ํ›„ ๋‘ ๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์˜์•ˆ ๊ฒฐ๊ณผ ์˜ˆ์ธก ์„ฑ๋Šฅ

4.4.1 ์†Œ๊ด€ ์œ„์›ํšŒ๋ณ„ ์˜ˆ์ธก

๋‹ค์Œ์œผ๋กœ๊ฐ€์žฅ์ข‹์€์„ฑ๋Šฅ์„๋‚˜ํƒ€๋‚ธ๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€๋ถ„์„์„์ค‘์ ์œผ๋กœ์†Œ๊ด€์œ„์›ํšŒ๋ณ„์˜ˆ์ธก์„ฑ๋Šฅ์„์‹ฌ์ธต์ ์œผ๋กœ

์กฐ์‚ฌํ–ˆ๋‹ค. 18๋Œ€ ๊ตญํšŒ์—์„œ ๋“ฑ์žฅํ•œ ์†Œ๊ด€ ์œ„์›ํšŒ 37๊ฐœ ์ค‘ ์ƒ์ž„์œ„์›ํšŒ๋‚˜ ํŠน๋ณ„์œ„์›ํšŒ์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ์†Œ๊ด€ ๋ฒ•์•ˆ์˜

๊ฐœ์ˆ˜๊ฐ€ 100๊ฑด์ด ๋„˜์–ด์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•˜๋‹ค๊ณ  ํŒ๋‹จ๋˜๋Š” ์œ„์›ํšŒ 17๊ฐœ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ์ง€ํ‘œ๋ฅผ ํ‘œ 6์— ๋‚˜ํƒ€๋ƒˆ๋‹ค.

์ด 17๊ฐœ ์œ„์›ํšŒ ์ค‘์—์„œ 10๊ฐœ์˜ ์œ„์›ํšŒ์—์„œ ๋ฒ”์ฃผ ๋ถˆ๊ท ํ˜•์„ ๋ณด์ •ํ•˜๊ธฐ ์ด์ „๋ณด๋‹ค ์ข‹์€ F-์ ์ˆ˜๋ฅผ ์–ป์„

์ˆ˜ ์žˆ์—ˆ๋‹ค. ํ•œํŽธ ๋ฒ”์ฃผ ๋ถˆ๊ท ํ˜• ๋ณด์ • ์ „์˜ F-์ ์ˆ˜๊ฐ€ ๋‚˜์€ ๊ฒฝ์šฐ๋„ ๋“ฑ์žฅํ–ˆ์ง€๋งŒ, ์ด๋“ค์˜ ์žฌํ˜„์œจ์„ ๋น„๊ตํ•ด๋ณด๋ฉด

๋ถˆ๊ท ํ˜•์„ ๋ณด์ •ํ•˜๊ธฐ ์ „๋ณด๋‹ค ํ›„์— ์žฌํ˜„์œจ์ด ์ƒ์Šนํ•œ ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์˜์•ˆ ํ†ต๊ณผ ์˜ˆ์ธก ๋ฌธ์ œ์—์„œ๋Š” ์†Œ์ˆ˜

๋ฒ”์ฃผ์— ์†ํ•˜๋Š” ํ†ต๊ณผ๋˜๋Š” ์˜์•ˆ์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์ด ๋” ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด์™€ ๊ฐ™์ด ์žฌํ˜„์œจ์ด ๋†’์•„์ง€๋Š” ๊ฒƒ์ด ๋”

์˜๋ฏธ์žˆ๋Š” ๊ฒฐ๊ณผ์ด๋‹ค.

4.4.2 ๊ตญํšŒ ์—ฐ์ฐจ๋ณ„ ์ •ํ™•๋„ ๋ฐ ์ •๋ฐ€๋„ ๋น„๊ต

๋งˆ์ง€๋ง‰์œผ๋กœ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์˜ ์—ฐ์ฐจ๋ณ„ ์˜ˆ์ธก ์„ฑ๋Šฅ์€ ํ‘œ 7๊ณผ ๊ฐ™์•˜๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ 4๋…„์ฐจ๋ฅผ ์ œ์™ธํ•˜๊ณ ๋Š”

๋ณด์ • ํ›„ F-์ ์ˆ˜๊ฐ€ ๋” ๋†’์•˜๋‹ค.

5 ๊ฒฐ๋ก 

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” 18๋Œ€ ๊ตญํšŒ์—์„œ ๋ฐœ์˜๋œ ๋ฒ•๋ฅ ์•ˆ์˜ ๋‹ค์–‘ํ•œ ์†์„ฑ์„ ์ด์šฉํ•ด ๋ฒ•๋ฅ ์•ˆ์ด ๋ฐœ์˜๋œ ์‹œ์ ์—์„œ ๋‹ค์„ฏ

๊ฐ€์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•˜์—ฌ ํ†ต๊ณผ ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•˜์˜€๋‹ค. ๋ฒ•๋ฅ ์•ˆ์ด ๋ฌด์กฐ๊ฑด ํ†ต๊ณผ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๊ธฐ์ค€ ๋ชจ

๋ธ๋กœ ์‚ผ๊ณ ๋„ ๋‹ค์„ฏ ๊ฐœ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ชจ๋‘ 4% ์ด์ƒ์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ํ†ตํ•ด 86% ์ด์ƒ์˜ ์ •ํ™•๋„๋ฅผ ๋‚ด์—ˆ์ง€๋งŒ,

์žฌํ˜„์œจ์ด ๋‚ฎ์•˜๋‹ค. ํ•œํŽธ ๋ฐ์ดํ„ฐ์˜ ๋ถˆ๊ท ํ˜•์„ ํ•ด์†Œํ•ด์ค€ ํ›„์—๋Š” ์ด์ „ ๋ชจ๋ธ์— ๋น„ํ•ด ์žฌํ˜„์œจ๊ณผ F-์ ์ˆ˜๋ฅผ ๋†’์ผ

์ˆ˜ ์žˆ์—ˆ๋‹ค. ํ•˜์ง€๋งŒ F-์ ์ˆ˜๊ฐ€ ๋†’์•„์ง€์ง€ ์•Š๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ์•ˆ ์ข‹์•„์ง€๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์—ˆ๋Š”๋ฐ, ์ด ๊ฒฝ์šฐ์—๋„ ์˜์•ˆ

์˜ˆ์ธก์—์„œ ์žฌํ˜„์œจ์€ ์˜ฌ๋ผ๊ฐ„๊ฒƒ์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์˜์•ˆ ์˜ˆ์ธก ๋ฌธ์ œ์—์„œ ํ†ต๊ณผ๋œ ์˜์•ˆ์„ ๋†“์น˜์ง€ ์•Š๋Š” ๊ฒƒ์„

10

๊ธฐ์กด ๋ณด์ • ํ›„

์œ„์›ํšŒ๋ช… ์ •ํ™•๋„ ์ •๋ฐ€๋„ ์žฌํ˜„์œจ F-์ ์ˆ˜ ์ •ํ™•๋„ ์ •๋ฐ€๋„ ์žฌํ˜„์œจ F-์ ์ˆ˜

์ •์น˜๊ฐœํ˜ํŠน๋ณ„์œ„์›ํšŒ 0.9963 1.0000 0.9412 0.9697 0.9963 1.0000 0.9412 0.9697

๊ตญํšŒ์šด์˜์œ„์›ํšŒ 0.9762 1.0000 0.7308 0.8444 0.9830 0.9565 0.8462 0.8980

๋ฒ•์ œ์‚ฌ๋ฒ•์œ„์›ํšŒ 0.8723 0.9588 0.4326 0.5962 0.8997 0.7458 0.8186 0.7805

๋ณด๊ฑด๋ณต์ง€๊ฐ€์กฑ์œ„์›ํšŒ 0.8868 0.8800 0.7097 0.7857 0.8585 0.7667 0.7419 0.7541

๋ณด๊ฑด๋ณต์ง€์œ„์›ํšŒ 0.9815 1.0000 0.7097 0.8302 0.9685 0.7765 0.7097 0.7416

์™ธ๊ตํ†ต์ƒํ†ต์ผ์œ„์›ํšŒ 0.8475 0.9000 0.4186 0.5714 0.8757 0.7561 0.7209 0.7381

์—ฌ์„ฑ๊ฐ€์กฑ์œ„์›ํšŒ 0.9271 0.9500 0.5278 0.6786 0.9190 0.7222 0.7222 0.7222

๊ธฐํš์žฌ์ •์œ„์›ํšŒ 0.9228 0.8571 0.5455 0.6667 0.9099 0.6441 0.8128 0.7187

์ง€์‹๊ฒฝ์ œ์œ„์›ํšŒ 0.8622 0.8206 0.7349 0.7754 0.7828 0.6250 0.8233 0.7106

ํ–‰์ •์•ˆ์ „์œ„์›ํšŒ 0.9373 0.8919 0.6027 0.7193 0.8972 0.5776 0.8493 0.6876

๊ตญํ† ํ•ด์–‘์œ„์›ํšŒ 0.9103 0.9043 0.5882 0.7128 0.8592 0.5964 0.7924 0.6805

๊ต์œก๊ณผํ•™๊ธฐ์ˆ ์œ„์›ํšŒ 0.9150 0.9429 0.4925 0.6471 0.8855 0.6121 0.7537 0.6756

๊ตญ๋ฐฉ์œ„์›ํšŒ 0.8484 0.9565 0.3492 0.5116 0.8375 0.6250 0.7143 0.6667

ํ™˜๊ฒฝ๋…ธ๋™์œ„์›ํšŒ 0.9154 0.9610 0.5175 0.6727 0.8566 0.5517 0.7832 0.6474

๋†๋ฆผ์ˆ˜์‚ฐ์‹ํ’ˆ์œ„์›ํšŒ 0.8360 0.9434 0.4587 0.6173 0.7910 0.6485 0.6009 0.6238

์ •๋ฌด์œ„์›ํšŒ 0.9270 0.9195 0.5797 0.7111 0.8584 0.5313 0.7391 0.6182

๋ฌธํ™”์ฒด์œก๊ด€๊ด‘๋ฐฉ์†กํ†ต์‹ ์œ„์›ํšŒ 0.9071 0.9091 0.4800 0.6283 0.8626 0.5794 0.5840 0.5817

ํ‘œ 6: ๋ฒ”์ฃผ๋ณ„ ๋น„์šฉ ๋ณด์ • ์ „ํ›„์˜ ์†Œ๊ด€ ์œ„์›ํšŒ๋ณ„ ์˜์•ˆ ๊ฒฐ๊ณผ ์˜ˆ์ธก ์„ฑ๋Šฅ ๋น„๊ต (๋ณด์ • ํ›„ F-์ ์ˆ˜ ๊ธฐ์ค€ ๋‚ด๋ฆผ์ฐจ์ˆœ)

๊ธฐ์กด ๋ณด์ • ํ›„

์—ฐ์ฐจ ์ •ํ™•๋„ ์ •๋ฐ€๋„ ์žฌํ˜„์œจ F-์ ์ˆ˜ ์ •ํ™•๋„ ์ •๋ฐ€๋„ ์žฌํ˜„์œจ F-์ ์ˆ˜

1๋…„์ฐจ 0.7885 0.4586 0.8655 0.5799 0.6336 0.6540 0.8534 0.6437

2๋…„์ฐจ 0.9483 0.4840 0.9128 0.6409 0.6504 0.7533 0.8952 0.6981

3๋…„์ฐจ 0.9651 0.4989 0.9306 0.6577 0.5772 0.7675 0.8938 0.6589

4๋…„์ฐจ 0.9949 0.7984 0.9595 0.8859 0.6598 0.8493 0.8840 0.7427

ํ‘œ 7: ๋ฒ”์ฃผ๋ณ„ ๋น„์šฉ ๋ณด์ • ์ „ํ›„์˜ ์—ฐ์ฐจ๋ณ„ ์˜์•ˆ ๊ฒฐ๊ณผ ์˜ˆ์ธก ์„ฑ๋Šฅ ๋น„๊ต (๋ณด์ • ํ›„ F-์ ์ˆ˜ ๊ธฐ์ค€ ๋‚ด๋ฆผ์ฐจ์ˆœ)

๋” ์ค‘์š”ํ•œ ๋ฌธ์ œ๋ผ๊ณ  ํŒ๋‹จํ•œ๋‹ค๋ฉด, ์ด๋Š” ๋ฐ”๋žŒ์งํ•œ ๊ฒฐ๊ณผ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ์กด ์—ฐ๊ตฌ๊ฐ€ ๋Œ€๋ถ€๋ถ„ ๋กœ์ง€์Šคํ‹ฑ

ํšŒ๊ท€๋ถ„์„์„์ ์šฉํ•œ๋ฐ๋ฐ˜ํ•ด,๋‹ค์–‘ํ•œ์•Œ๊ณ ๋ฆฌ์ฆ˜์„๋„์ž…ํ•ด์•Œ๊ณ ๋ฆฌ์ฆ˜๊ฐ„์„ฑ๋Šฅ๋น„๊ต๋„ํ• ์ˆ˜์žˆ์—ˆ๋‹ค.๋ฟ๋งŒ์•„๋‹ˆ๋ผ

๋ฏธ๊ตญ ์˜ํšŒ์™€๋Š” ๋‹ค๋ฅธ ํŠน์„ฑ์„ ๊ฐ€์ง€๋Š” ํ•œ๊ตญ ๊ตญํšŒ์— ๋Œ€ํ•ด ์‹คํ—˜์„ ์ง„ํ–‰ํ•œ๋ฐ ์˜์˜๊ฐ€ ์žˆ๋‹ค.

์•ž์œผ๋กœ ์ด ์—ฐ๊ตฌ๋ฅผ ๋ฐœ์ „์‹œ์ผœ ์˜์•ˆ์ด ์—ฌ๋Ÿฌ ์‹ฌ์‚ฌ ๋‹จ๊ณ„ ์ค‘ ์–ด๋Š ๋‹จ๊ณ„์—์„œ ํƒˆ๋ฝํ•  ๊ฒƒ์ธ์ง€๋ฅผ ์˜ˆ์ธกํ•ด๋ณด๊ฑฐ๋‚˜

๋ฐœ์˜ ์‹œ์  ๊ธฐ์ค€์ด ์•„๋‹ˆ๋ผ ํ˜„์žฌ ์‹œ์ ์—์„œ ๊ฐ€์ง„ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ํ†ต๊ณผ์œจ์„ ์ •ํ™•๋„๋ฅผ ๋†’์—ฌ๋ณผ ์ˆ˜ ์žˆ์„

๊ฒƒ์ด๋‹ค. ๋˜ํ•œ, ์˜์•ˆ ์›๋ฌธ์—์„œ ์˜๋ฏธ ์ •๋ณด๋ฅผ ์‚ด๋ ค ์‹œ๋งจํ‹ฑ(semantic)ํ•œ ๊ตฌ์กฐ๋ฅผ ์ถ”์ถœํ•˜๋ฉด ์˜์•ˆ ์˜ˆ์ธก์˜ ์„ฑ๋Šฅ์ด

๋”์šฑ ๋†’์•„์งˆ ๊ฒƒ์„ ๊ธฐ๋Œ€ํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.

11

์ฐธ๊ณ ๋ฌธํ—Œ

[1] Poodl: Popong open data library. http://data.popong.com, 2014. [Accessed 2014-10-31].

[2] Peter J Mucha, Thomas Richardson, Kevin Macon, Mason A Porter, and Jukka-Pekka On-

nela. Community structure in time-dependent, multiscale, and multiplex networks. Science,

328(5980):876โ€“878, 2010.

[3] Keith T Poole and Howard Rosenthal. Congress: A political-economic history of roll call voting.

Oxford University Press, 1997.

[4] Tae Yano, Noah A Smith, and John D Wilkerson. Textual predictors of bill survival in congressional

committees. In Proceedings of the 2012 Conference of the North American Chapter of the Associ-

ation for Computational Linguistics: Human Language Technologies, pages 793โ€“802. Association

for Computational Linguistics, 2012.

12


Recommended