๐Ÿ˜Ž ๊ณต๋ถ€ํ•˜๋Š” ์ง•์ง•์•ŒํŒŒ์นด๋Š” ์ฒ˜์Œ์ด์ง€?

[AI]_24_Q ํ•™์Šต (Q-Learning) ๋ณธ๋ฌธ

๐Ÿ‘ฉ‍๐Ÿ’ป ์ธ๊ณต์ง€๋Šฅ (ML & DL)/AI

[AI]_24_Q ํ•™์Šต (Q-Learning)

์ง•์ง•์•ŒํŒŒ์นด 2022. 5. 19. 00:38
728x90
๋ฐ˜์‘ํ˜•

 220518 ์ž‘์„ฑ

<๋ณธ ๋ธ”๋กœ๊ทธ๋Š” ๋‘์šฐ์šฐ๋ถ€๋‹˜์˜ ์•Œ๊ธฐ์‰ฌ์šด AI ๋ธ”๋กœ๊ทธ๋ฅผ ์ฐธ๊ณ ํ•ด์„œ ๊ณต๋ถ€ํ•˜๋ฉฐ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค>

https://doooob.tistory.com/102?category=825950 

 

[์•Œ๊ธฐ์‰ฌ์šด AI - 24] Q ํ•™์Šต (Q-Learning)

์ง€๋‚œ๋ฒˆ์—๋Š” "Q-Learning์˜ Q๋Š” ๋ฌด์—‡์˜ ์•ฝ์ž์ธ๊ฐ€์š”?"๋ผ๋Š” ์งˆ๋ฌธ์— ๋Œ€ํ•˜์—ฌ, "๊ฒ€์ • ๊ฒฐ๊ณผ๊ฐ€ ์œ ์˜ํ•˜๋‹ค๊ณ  ํŒ๋‹จ๋˜๋Š” ์ตœ์†Œ์˜ FDR(false discovery rate)์˜ ์ˆ˜"์ž„์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ์—๋Š” ๋“œ๋””์–ด Q-Learning์˜

doooob.tistory.com

 

 

1. Q-Learning

: ๊ฒ€์ • ๊ฒฐ๊ณผ๊ฐ€ ์œ ์˜ํ•˜๋‹ค๊ณ  ํŒ๋‹จ๋˜๋Š” ์ตœ์†Œ์˜ FDR(false discovery rate)์˜ ์ˆ˜

 

ex) ํ•ด์ „ ๊ฒŒ์ž„

: ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ณต๊ฒฉํ•˜๋‹ค ๋ณด๋ฉด ์ „๋žต ๋ณด๋“œ(Q)์˜ ์ •๋ณด๊ฐ€ ํ’๋ถ€ํ•ด์ ธ ์ ์ฐจ ์ƒ๋Œ€๋ฐฉ์˜ ๋‚˜๋จธ์ง€ ํ•จ๋“ค์˜ ์œ„์น˜๊ฐ€ ๋ณด์ด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋จผ์ € ์ƒ๋Œ€๋ฅผ ์ „๋ฉธ์‹œํ‚ค๋ฉด ์Šน๋ฆฌํ•˜๋Š” ๊ฒŒ์ž„

 

 

 

2. Q-Learning์˜ ์ดํ•ด

: ํ›ˆ๋ จ์„ ํ†ตํ•ด '์–ด๋””๋กœ ์ด๋™ํ•˜๋ฉด ๊ณจ์— ์ ‘๊ทผํ•˜๋Š”๊ฐ€'๋ผ๋Š” ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•ด ๊ฐ‘๋‹ˆ๋‹ค

: ํ•™์Šต์„ ์ง„ํ–‰ํ•ด ๊ฐ€๋ฉด์„œ ์ด Q๋ณด๋“œ์— ์œ ์šฉํ•œ ์ •๋ณด๊ฐ€ ๊ธฐ๋ก๋˜์–ด ๊ฐ€๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋กœ Q๋ณด๋“œ๋ฅผ ๋ณด๋ฉฐ ํ”Œ๋ ˆ์ด ํ•จ์œผ๋กœ์จ ํšจ์œจ์ ์œผ๋กœ ์ตœ๋Œ€์˜ ๋ณด์ƒ์„ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค

 

 

3. ๊ฐ•ํ™”ํ•™์Šต์ด๋ž€?

: ์–ด๋Š ํ™˜๊ฒฝ์—์„œ ์—์ด์ „ํŠธ์˜ ํ˜„์žฌ ์ƒํƒœ์—์„œ ํ–‰๋™ํ•œ ๊ฒฐ๊ณผ๋กœ ์ฃผ์–ด์ง€๋Š” ๋ณด์ƒ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์—ํ”ผ์†Œ๋“œ๋ฅผ ๋ฐ˜๋ณตํ•ด ๊ฐ€๋Š” ํ•™์Šต๋ฒ•

 

: ๊ฐ•ํ™” ํ•™์Šต์€ ์ฆ‰๊ฐ์ ์ธ ๋ณด์ƒ(Immediate rewards : ์ฆ‰์‹œ ๋ณด์ƒ) ๋Œ€์‹  ๋ฏธ๋ž˜์— ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ฐ€์น˜๋ฅผ ๊ทน๋Œ€ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋„๋ก ํ–‰๋™ํ•ฉ๋‹ˆ๋‹ค.

: "์–ด๋–ค ์ƒํƒœ์—์„œ ํ•œ ํ–‰๋™์„ ์ทจํ–ˆ์„ ๋•Œ์˜ ๊ฐ€์น˜"๋ฅผ ํƒํ—˜(์—ํ”ผ์†Œ๋“œ)์„ ํ†ตํ•ด ์ฐพ์•„๊ฐ‘๋‹ˆ๋‹ค. 

: ์ด ๊ฐ€์น˜๋ฅผ Q๊ฐ’(์ƒํƒœ ํ–‰๋™ ๊ฐ€์น˜)์ด๋ผ ํ•˜๋ฉฐ ์–ป์–ด์ง„ ์ •๋ณด(๊ฐ€์น˜์˜ ๊ธฐ๋Œ€์น˜)๋ฅผ Q๋ณด๋“œ์— ์ €์žฅํ•˜์—ฌ ๋‘ก๋‹ˆ๋‹ค. 

 

 

 

4. ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜

- Q-Learning 

: Q (ํ˜„์žฌ ๊ฐ’) = (1-α) Q ( ํ˜„์žฌ ๊ฐ’ ) + α Q ( ์ƒˆ๋กœ์šด ๊ฐ’ )

: α๋Š” ํ•™์Šต๋ฅ ์ด๋ผ ๋ถˆ๋ฆฌ๋ฉฐ Q๊ฐ’ ๊ฒฝ์‹ ์˜ ์™„๊ธ‰์„ ๊ฒฐ์ •ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ

 

- Sarsa

: Q ( ์ƒํƒœ, ์•ก์…˜ ) = (1-α) Q ( ์ƒํƒœ, ๋™์ž‘ ) + α (R ( ์ƒํƒœ, ๋™์ž‘ ) + γ Q ( ๋‹ค์Œ ์ƒํƒœ, ๋ชจ๋“  ์•ก์…˜ ))

: ์‹ค์ œ๋กœ ํ•˜๋‚˜์”ฉ ํ–‰๋™ํ•œ ๊ฒฐ๊ณผ๋กœ Q๊ฐ’์„ ๊ฒฝ์‹ 

 

- ๋ชฌํ…Œ์นด๋ฅผ๋กœ 

: Q ( ์ƒํƒœ, ์•ก์…˜ ) = Ave (๋ฐฐ์—ด ( ์ƒํƒœ ์ž‘์—… ))

: ๋žœ๋ค์œผ๋กœ ์‹œ๋„ํ•˜์—ฌ ๊ทธ ๊ฒฐ๊ณผ์˜ ๊ทผ์‚ฌ์น˜๋ฅผ ๊ตฌํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒ•

โ‘  ์–ด์จŒ๋“  ๋ณด์ƒ์„ ์–ป์„ ๋•Œ๊นŒ์ง€ ํ–‰๋™ํ•ฉ๋‹ˆ๋‹ค.(๊ทธ๋ฆผ 2์˜ ์˜ˆ๋ผ๋ฉด F๋ฐฉ์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€ ๊ณ„์† ์ด๋™) 

โ‘ก ๊ฑฐ๊ธฐ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€์˜ ์•ก์…˜๊ณผ ์–ป์€ ๋ณด์ƒ์„ ๋ณด์ƒ ๋ฐฐ์—ด์— ๋ชจ๋‘ ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค.

โ‘ข ๋ณด์ƒ์— ๋„๋‹ฌํ•˜๋ฉด, ๊ทธ๋•Œ๊นŒ์ง€ ๊ธฐ๋ก๋œ ๋ฐฐ์—ด์˜ ํ‰๊ท ์น˜๋กœ Q๊ฐ’์„ ์‹ 4๋กœ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. 

์‹ค์ œ๋กœ ํ•˜๋‚˜์”ฉ ํ–‰๋™ํ•œ ๊ฒฐ๊ณผ๋กœ Q๊ฐ’์„ ๊ฒฝ์‹ 

Q(์ƒํƒœ, ์•ก์…˜) = (1-α) Q(์ƒํƒœ, ๋™์ž‘) + α( R (์ƒํƒœ, ์•ก์…˜ + γ × Max(Q ( ๋‹ค์Œ ์ƒํƒœ ๋ชจ๋“  ์กฐ์น˜ )))

 

 

 

 

 

 

 

 

 

 

728x90
๋ฐ˜์‘ํ˜•
Comments