๐ ๊ณต๋ถํ๋ ์ง์ง์ํ์นด๋ ์ฒ์์ด์ง?
[AI]_24_Q ํ์ต (Q-Learning) ๋ณธ๋ฌธ
[AI]_24_Q ํ์ต (Q-Learning)
์ง์ง์ํ์นด 2022. 5. 19. 00:38220518 ์์ฑ
<๋ณธ ๋ธ๋ก๊ทธ๋ ๋์ฐ์ฐ๋ถ๋์ ์๊ธฐ์ฌ์ด AI ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํด์ ๊ณต๋ถํ๋ฉฐ ์์ฑํ์์ต๋๋ค>
https://doooob.tistory.com/102?category=825950
[์๊ธฐ์ฌ์ด AI - 24] Q ํ์ต (Q-Learning)
์ง๋๋ฒ์๋ "Q-Learning์ Q๋ ๋ฌด์์ ์ฝ์์ธ๊ฐ์?"๋ผ๋ ์ง๋ฌธ์ ๋ํ์ฌ, "๊ฒ์ ๊ฒฐ๊ณผ๊ฐ ์ ์ํ๋ค๊ณ ํ๋จ๋๋ ์ต์์ FDR(false discovery rate)์ ์"์์ ์ ์ ์์์ต๋๋ค. ์ด๋ฒ์๋ ๋๋์ด Q-Learning์
doooob.tistory.com
1. Q-Learning
: ๊ฒ์ ๊ฒฐ๊ณผ๊ฐ ์ ์ํ๋ค๊ณ ํ๋จ๋๋ ์ต์์ FDR(false discovery rate)์ ์
ex) ํด์ ๊ฒ์
: ๋ฐ๋ณต์ ์ผ๋ก ๊ณต๊ฒฉํ๋ค ๋ณด๋ฉด ์ ๋ต ๋ณด๋(Q)์ ์ ๋ณด๊ฐ ํ๋ถํด์ ธ ์ ์ฐจ ์๋๋ฐฉ์ ๋๋จธ์ง ํจ๋ค์ ์์น๊ฐ ๋ณด์ด๊ฒ ๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋จผ์ ์๋๋ฅผ ์ ๋ฉธ์ํค๋ฉด ์น๋ฆฌํ๋ ๊ฒ์
2. Q-Learning์ ์ดํด
: ํ๋ จ์ ํตํด '์ด๋๋ก ์ด๋ํ๋ฉด ๊ณจ์ ์ ๊ทผํ๋๊ฐ'๋ผ๋ ์ ๋ณด๋ฅผ ๊ธฐ์ตํด ๊ฐ๋๋ค
: ํ์ต์ ์งํํด ๊ฐ๋ฉด์ ์ด Q๋ณด๋์ ์ ์ฉํ ์ ๋ณด๊ฐ ๊ธฐ๋ก๋์ด ๊ฐ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ก Q๋ณด๋๋ฅผ ๋ณด๋ฉฐ ํ๋ ์ด ํจ์ผ๋ก์จ ํจ์จ์ ์ผ๋ก ์ต๋์ ๋ณด์์ ์ป์ ์ ์๋ ๊ฒ์ ๋๋ค
3. ๊ฐํํ์ต์ด๋?
: ์ด๋ ํ๊ฒฝ์์ ์์ด์ ํธ์ ํ์ฌ ์ํ์์ ํ๋ํ ๊ฒฐ๊ณผ๋ก ์ฃผ์ด์ง๋ ๋ณด์์ ๊ทน๋ํํ๊ธฐ ์ํด ์ํผ์๋๋ฅผ ๋ฐ๋ณตํด ๊ฐ๋ ํ์ต๋ฒ
: ๊ฐํ ํ์ต์ ์ฆ๊ฐ์ ์ธ ๋ณด์(Immediate rewards : ์ฆ์ ๋ณด์) ๋์ ๋ฏธ๋์ ์ป์ ์ ์๋ ๊ฐ์น๋ฅผ ๊ทน๋ํ์ํฌ ์ ์๋๋ก ํ๋ํฉ๋๋ค.
: "์ด๋ค ์ํ์์ ํ ํ๋์ ์ทจํ์ ๋์ ๊ฐ์น"๋ฅผ ํํ(์ํผ์๋)์ ํตํด ์ฐพ์๊ฐ๋๋ค.
: ์ด ๊ฐ์น๋ฅผ Q๊ฐ(์ํ ํ๋ ๊ฐ์น)์ด๋ผ ํ๋ฉฐ ์ป์ด์ง ์ ๋ณด(๊ฐ์น์ ๊ธฐ๋์น)๋ฅผ Q๋ณด๋์ ์ ์ฅํ์ฌ ๋ก๋๋ค.
4. ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ
- Q-Learning
: Q (ํ์ฌ ๊ฐ) = (1-α) Q ( ํ์ฌ ๊ฐ ) + α Q ( ์๋ก์ด ๊ฐ )
: α๋ ํ์ต๋ฅ ์ด๋ผ ๋ถ๋ฆฌ๋ฉฐ Q๊ฐ ๊ฒฝ์ ์ ์๊ธ์ ๊ฒฐ์ ํ๋ ํ๋ผ๋ฏธํฐ
- Sarsa
: Q ( ์ํ, ์ก์ ) = (1-α) Q ( ์ํ, ๋์ ) + α (R ( ์ํ, ๋์ ) + γ Q ( ๋ค์ ์ํ, ๋ชจ๋ ์ก์ ))
: ์ค์ ๋ก ํ๋์ฉ ํ๋ํ ๊ฒฐ๊ณผ๋ก Q๊ฐ์ ๊ฒฝ์
- ๋ชฌํ ์นด๋ฅผ๋ก
: Q ( ์ํ, ์ก์ ) = Ave (๋ฐฐ์ด ( ์ํ ์์ ))
: ๋๋ค์ผ๋ก ์๋ํ์ฌ ๊ทธ ๊ฒฐ๊ณผ์ ๊ทผ์ฌ์น๋ฅผ ๊ตฌํ๋ ์๋ฎฌ๋ ์ด์ ๋ฒ
โ ์ด์จ๋ ๋ณด์์ ์ป์ ๋๊น์ง ํ๋ํฉ๋๋ค.(๊ทธ๋ฆผ 2์ ์๋ผ๋ฉด F๋ฐฉ์ ๋๋ฌํ ๋๊น์ง ๊ณ์ ์ด๋)
โก ๊ฑฐ๊ธฐ์ ์ด๋ฅด๊ธฐ๊น์ง์ ์ก์ ๊ณผ ์ป์ ๋ณด์์ ๋ณด์ ๋ฐฐ์ด์ ๋ชจ๋ ๊ธฐ๋กํฉ๋๋ค.
โข ๋ณด์์ ๋๋ฌํ๋ฉด, ๊ทธ๋๊น์ง ๊ธฐ๋ก๋ ๋ฐฐ์ด์ ํ๊ท ์น๋ก Q๊ฐ์ ์ 4๋ก ์ ๋ฐ์ดํธํฉ๋๋ค.
์ค์ ๋ก ํ๋์ฉ ํ๋ํ ๊ฒฐ๊ณผ๋ก Q๊ฐ์ ๊ฒฝ์
Q(์ํ, ์ก์ ) = (1-α) Q(์ํ, ๋์) + α( R (์ํ, ์ก์ + γ × Max(Q ( ๋ค์ ์ํ ๋ชจ๋ ์กฐ์น )))
'๐ฉโ๐ป ์ธ๊ณต์ง๋ฅ (ML & DL) > AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
FCC STFT MFCC ๋ฅผ ์ด์ฉํ ์์ฑ ์ ํธ ๋ถ์ (0) | 2022.11.03 |
---|---|
MFCC (Mel Frequency Cepstrum Coefficient) ์์ฑ ์ ํธ ๋ถ์ํ๊ธฐ (0) | 2022.11.03 |
[AI]_23_P-Value & Q-Value (0) | 2022.05.08 |
[AI]_22_๊ฐํํ์ต & ๋์ ์๊ณ ๋ฆฌ์ฆ (0) | 2022.05.07 |
[AI]_21_๊ณผํ์ต ๋ง๊ธฐ! (0) | 2022.03.27 |