😎 κ³΅λΆ€ν•˜λŠ” μ§•μ§•μ•ŒνŒŒμΉ΄λŠ” μ²˜μŒμ΄μ§€?

[DEEPNOID μ›ν¬μΈνŠΈλ ˆμŠ¨]_8_Reinforcement Learning λ³Έλ¬Έ

πŸ‘©‍πŸ’» 인곡지λŠ₯ (ML & DL)/ML & DL

[DEEPNOID μ›ν¬μΈνŠΈλ ˆμŠ¨]_8_Reinforcement Learning

μ§•μ§•μ•ŒνŒŒμΉ΄ 2022. 1. 27. 17:49
728x90
λ°˜μ‘ν˜•

220127 μž‘μ„±

<λ³Έ λΈ”λ‘œκ·ΈλŠ” DEEPNOID μ›ν¬μΈνŠΈλ ˆμŠ¨μ„ μ°Έκ³ ν•΄μ„œ κ³΅λΆ€ν•˜λ©° μž‘μ„±ν•˜μ˜€μŠ΅λ‹ˆλ‹€>

https://www.deepnoid.com/

 

인곡지λŠ₯ | Deepnoid

DEEPNOIDλŠ” 인곡지λŠ₯을 ν†΅ν•œ 인λ₯˜μ˜ 건강과 μ‚Άμ˜ 질 ν–₯상을 κΈ°μ—…μ΄λ…μœΌλ‘œ ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. λ”₯λ…Έμ΄λ“œκ°€ κΏˆκΎΈλŠ” 세상은, 의료 인곡지λŠ₯이 μ§€κΈˆλ³΄λ‹€ 훨씬 넓은 λ²”μœ„μ˜ μ§ˆν™˜μ˜ 연ꡬ, 진단, μΉ˜λ£Œμ— 도움

www.deepnoid.com

 

 

 

 

 

 

1. κ°•ν™”ν•™μŠ΅

ex) μ•ŒνŒŒκ³  -> λŒ€λŸ‰μ˜ 기보λ₯Ό 톡해 λͺ¨λ°© ν•™μŠ΅ κ±°μΉ¨ (행동에 λŒ€ν•œ 보상을 μ–»κ³ , 보상을 톡해 슀슀둜 ν•™μŠ΅)

: κ°•ν™”ν•™μŠ΅μ€ μ§€λ„ν•™μŠ΅ (μ •λ‹΅ 주어짐), λΉ„μ§€λ„ν•™μŠ΅ (주어진 λ°μ΄ν„°λ‘œ ν•™μŠ΅) 이 μ•„λ‹˜

: μ—μ΄μ „νŠΈκ°€ ν™˜κ²½κ³Ό μƒν˜Έμž‘μš©ν•˜λ©΄μ„œ 슀슀둜 ν•™μŠ΅ν•˜λŠ” 방식!

: λͺ¨λ“  λ¬Έμ œκ°€ μˆ˜ν•™μ μœΌλ‘œ μ •μ˜λ˜μ–΄μ•Ό μ—μ΄μ „νŠΈκ°€ ν•™μŠ΅ν•˜κ³  λ°œμ „

 

- μƒνƒœ : μ—μ΄μ „νŠΈμ˜ μƒνƒœ

- 행동 : μ–΄λ– ν•œ μƒνƒœμ—μ„œ μ—μ΄μ „νŠΈκ°€ μ·¨ν•  수 μžˆλŠ” 행동

- 보상 : μ—μ΄μ „νŠΈκ°€ ν•™μŠ΅ν•  수 μžˆλŠ” μœ μΌν•œ 정보

- μ •μ±… : 순차적 행동 κ²°μ •λ¬Έμ œμ—μ„œ ꡬ해야할 λ‹΅

 

- μ •μ±… μ—…λ°μ΄νŠΈ

: 큰 κ°€μΉ˜λ₯Ό μ§€λ‹Œ 행동을 μ„ νƒν•˜κ³  ν™˜κ²½μ€ μ—μ΄μ „νŠΈμ—κ²Œ 보상과 λ‹€μŒ μƒνƒœλ₯Ό μ•Œλ €μ€Œ

: 더 λ§Žμ€ 보상을 받도둝 μ‘°κΈˆμ”© μ—…λ°μ΄νŠΈ

-> 행동과 보상은 ν–‰λ™κ°€μΉ˜λ‘œ μ •μ˜

-> ν–‰λ™κ°€μΉ˜λŠ” νŠΉμ • μ‹œμ μ—μ„œ μ–΄λ– ν•œ 행동을 μ·¨ν–ˆμ„ λ•Œ 보상에 λŒ€ν•œ κΈ°λŒ“κ°’

 

 

 

 

2. MDP

= μƒνƒœ + 행동 + 보상 ν•¨μˆ˜ + μƒνƒœ λ³€ν™˜ ν™•λ₯  + κ°κ°€μœ¨

 

: 순차적 행동 κ²°μ • 문제

: 순차적으둜 κ²°μ •ν•˜λŠ” 문제λ₯Ό μˆ˜ν•™μ μœΌλ‘œ ν‘œν˜„

 

- λ³΄μƒν•¨μˆ˜

: μ—μ΄μ „νŠΈκ°€ ν•™μŠ΅ν•  수 μžˆλŠ” μœ μΌν•œ 정보

: ν™˜κ²½μ΄ μ—μ΄μ „νŠΈμ—κ²Œ μ£ΌλŠ” 정보

: 보상에 λŒ€ν•œ κΈ°λŒ“κ°’

 

- μƒνƒœ λ³€ν™˜ ν™•λ₯ 

: μƒνƒœμ—μ„œ 행동을 μ·¨ν–ˆμ„ λ•Œ λ‹€λ₯Έ μƒνƒœμ— 도달할 ν™•λ₯ 

: μ—μ΄μ „νŠΈκ°€ μ•Œμ§€ λͺ»ν•˜λŠ” κ°’

 

- κ°κ°€μœ¨

: μ—μ΄μ „νŠΈλŠ” 항상 ν˜„μž¬μ— νŒλ‹¨μ„ λ‚΄λ¦Ό

: ν˜„μž¬μ— κ°€κΉŒμš΄ 보상일 수둝 더 큰 κ°€μΉ˜

 

- μ •μ±…

: λͺ¨λ“  μƒνƒœμ—μ„œ μ—μ΄μ „νŠΈκ°€ ν•  행동

: κ°•ν™”ν•™μŠ΅μ„ 톡해 ν•™μŠ΅ν•΄μ•Όν•  것은 졜적 μ •μ±…

: μ‹œκ°„μ— μ—μ΄μ „νŠΈκ°€ μžˆμ„ λ•Œ κ°€λŠ₯ν•œ 행동 μ€‘μ—μ„œ A λ₯Ό ν•  ν™•λ₯ 

: ν˜„μž¬λ³΄λ‹€ 더 쒋은 μ •μ±… ν•™μŠ΅ν•˜κΈ°

( κ°€μΉ˜ ν•¨μˆ˜ : μ΅œλŒ€ 보상을 받을 수 μžˆλŠ” 행동을 선택해야함, μ•žμœΌλ‘œ 받을 보상 )

( κ°€μΉ˜ ν•¨μˆ˜ : μƒνƒœκ°€ μž…λ ₯, μ•žμœΌλ‘œ 받을 λ³΄μƒμ˜ 합을 좜λ ₯으둜 ν•˜λŠ” "μƒνƒœ κ°€μΉ˜ ν•¨μˆ˜" )

( 행동 κ°€μΉ˜ ν•¨μˆ˜ : μ–΄λ–€ μƒνƒœμ—μ„œ μ–΄λ–€ 행동이 μ–Όλ§ˆλ‚˜ 쒋은지 μ•Œλ €μ£ΌλŠ” ν•¨μˆ˜ )

( νν•¨μˆ˜ : 행동 κ°€μΉ˜ ν•¨μˆ˜ )

 

 

 

 

 

3. 벨만 κΈ°λŒ€ 방정식

: 정책을 λ°˜μ˜ν•œ κ°€μΉ˜ ν•¨μˆ˜

: 식에 κΈ°λŒ“κ°’ 듀어감

: ν˜„μž¬ μƒνƒœμ˜ κ°€μΉ˜ν•¨μˆ˜μ™€ λ‹€μŒ μƒνƒœμ˜ κ°€μΉ˜ν•¨μˆ˜ μ‚¬μ΄μ˜ 관계λ₯Ό μ‹μœΌλ‘œ λ‚˜νƒ€λ‚Έ 것

 

 

 

 

 

4, 벨만 졜적 방정식

: 졜적 정책을 λ”°λΌκ°ˆ λ•Œ ν˜„μž¬ μƒνƒœμ˜ νν•¨μˆ˜λŠ” λ‹€μŒ μƒνƒœμ— 선택 κ°€λŠ₯ν•œ 행동 μ€‘μ—μ„œ κ°€μž₯ 높은 κ°’μ˜ νν•¨μˆ˜λ₯Ό 1번 κ°κ°€ν•˜κ³  보상을 λ”ν•œ 것 κ³Ό κ°™λ‹€

 

 

 

 

 

 

728x90
λ°˜μ‘ν˜•
Comments