Date post: | 11-Apr-2017 |
Category: |
Technology |
Upload: | jkomiyama |
View: | 2,101 times |
Download: | 0 times |
( ) ( )
: ๐พ
๐ก = 1,2, โฆ , ๐
๐ผ(๐ก) โ
{1, . . , ๐พ}
๐๐ผ ๐ก ๐ก
๐ก=1๐ ๐๐ผ ๐ก (๐ก)
(image from
http://www.directgamesroom.com )
arm
Bernoulli: 1= ,
0= )
๐ ๐๐
๐๐ผ ๐ก ๐ก โผ ๐๐ผ(๐ก)
๐๐
Bernoulli(๐๐)
{๐๐
๐๐๐1 > ๐2 > ๐3 > โฏ > ๐๐พ
{๐๐}๐โ[๐พ]
๐1 ๐ ๐1๐
๐1, โฆ . , ๐๐พ
๐๐argmaxi ๐๐
argmaxi ๐๐ = argmaxi๐๐ =: ๐1
๐1
Regret ๐ = ๐1๐ โ
๐
๐พ
๐๐๐๐ (๐)
๐๐(๐) ๐๐
๐ ๐1 โ ๐๐ ๐ธ Regret ๐
๐ธ[๐๐(๐)]
โข
โข
โข
โข
โข
โ
2
: ๐พ L (< ๐พ): ๐
๐ก L ๐ผ(๐ก){๐๐ ๐ก } (๐ โ ๐ผ ๐ก ) .
๐๐ ๐ก โผ ๐ต๐๐๐๐๐ข๐๐๐(๐๐)
Regret(T) =
๐ก=1
๐
๐โ ๐ฟ
๐๐ ๐ก โ
๐โ๐ผ ๐ก
๐๐ ๐ก
{๐ฟ + 1, ๐ฟ + 2,โฆ , ๐พ}๐ผ ๐ก = {1,โฆ , ๐ฟ}
ๅๆฐ้ธๆใงๆ้ฉ ่คๆฐ้ธๆใงๆ้ฉ
ๅๆฐ้ธๆใงๆ้ฉ ่คๆฐ้ธๆใงๆ้ฉ
ๆฌ็ ็ฉถ
Regret ๐ โฅ
๐โ{๐ฟ+1,โฆ,๐พ}
๐๐ฟ โ ๐๐ log ๐
๐ท๐พ๐ฟ ๐๐ , ๐๐ฟโ ๐ log ๐
3
L-2
L-1
i>L
j>L
๐ผ(๐ก)
2
L
โข
โข
๐
๐ผ๐(1) = 1, ๐ฝ๐(1) = 1
๐๐(๐ก) โผ Beta(๐ผ๐ ๐ก , ๐ฝ๐(๐ก)) ๐ผ ๐ก = ๐๐(๐ก)
๐๐ผ ๐ก ๐ก ๐ผ๐ผ(๐ก) ๐ผ๐ผ(๐ก)(๐ก)
๐ฝ๐ผ(๐ก) ๐ฝ๐ผ(๐ก)(๐ก)
๐๐(๐ก) โผ ๐ต๐๐ก๐(๐ผ๐(๐ก), ๐ฝ๐(๐ก)) ๐ผ ๐ก =๐๐(๐ก)
๐ โ ๐ผ ๐ก
๐๐ ๐ก ๐ผ๐ ๐ผ๐(๐ก)๐ฝ๐ ๐ฝ๐
๐(log ๐ก
๐ก)
๐(log ๐ก
๐ก
2)
๐ก = 1,โฆ , ๐ ๐(1)