[DEEPNOID 원포인트레슨]_8_Reinforcement Learning

250x250

관리 메뉴

😎 공부하는 징징알파카는 처음이지?

[DEEPNOID 원포인트레슨]_8_Reinforcement Learning 본문

👩‍💻 인공지능 (ML & DL)/ML & DL

[DEEPNOID 원포인트레슨]_8_Reinforcement Learning

징징알파카 2022. 1. 27. 17:49

728x90

220127 작성

<본 블로그는 DEEPNOID 원포인트레슨을 참고해서 공부하며 작성하였습니다>

https://www.deepnoid.com/

인공지능 | Deepnoid

DEEPNOID는 인공지능을 통한 인류의 건강과 삶의 질 향상을 기업이념으로 하고 있습니다. 딥노이드가 꿈꾸는 세상은, 의료 인공지능이 지금보다 훨씬 넓은 범위의 질환의 연구, 진단, 치료에 도움

www.deepnoid.com

1. 강화학습

ex) 알파고 -> 대량의 기보를 통해 모방 학습 거침 (행동에 대한 보상을 얻고, 보상을 통해 스스로 학습)

: 강화학습은 지도학습 (정답 주어짐), 비지도학습 (주어진 데이터로 학습) 이 아님

: 에이전트가 환경과 상호작용하면서 스스로 학습하는 방식!

: 모든 문제가 수학적으로 정의되어야 에이전트가 학습하고 발전

- 상태 : 에이전트의 상태

- 행동 : 어떠한 상태에서 에이전트가 취할 수 있는 행동

- 보상 : 에이전트가 학습할 수 있는 유일한 정보

- 정책 : 순차적 행동 결정문제에서 구해야할 답

- 정책 업데이트

: 큰 가치를 지닌 행동을 선택하고 환경은 에이전트에게 보상과 다음 상태를 알려줌

: 더 많은 보상을 받도록 조금씩 업데이트

-> 행동과 보상은 행동가치로 정의

-> 행동가치는 특정 시점에서 어떠한 행동을 취했을 때 보상에 대한 기댓값

2. MDP

= 상태 + 행동 + 보상 함수 + 상태 변환 확률 + 감가율

: 순차적 행동 결정 문제

: 순차적으로 결정하는 문제를 수학적으로 표현

- 보상함수

: 에이전트가 학습할 수 있는 유일한 정보

: 환경이 에이전트에게 주는 정보

: 보상에 대한 기댓값

- 상태 변환 확률

: 상태에서 행동을 취했을 때 다른 상태에 도달할 확률

: 에이전트가 알지 못하는 값

- 감가율

: 에이전트는 항상 현재에 판단을 내림

: 현재에 가까운 보상일 수록 더 큰 가치

- 정책

: 모든 상태에서 에이전트가 할 행동

: 강화학습을 통해 학습해야할 것은 최적 정책

: 시간에 에이전트가 있을 때 가능한 행동 중에서 A 를 할 확률

: 현재보다 더 좋은 정책 학습하기

( 가치 함수 : 최대 보상을 받을 수 있는 행동을 선택해야함, 앞으로 받을 보상 )

( 가치 함수 : 상태가 입력, 앞으로 받을 보상의 합을 출력으로 하는 "상태 가치 함수" )

( 행동 가치 함수 : 어떤 상태에서 어떤 행동이 얼마나 좋은지 알려주는 함수 )

( 큐함수 : 행동 가치 함수 )

3. 벨만 기대 방정식

: 정책을 반영한 가치 함수

: 식에 기댓값 들어감

: 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것

4, 벨만 최적 방정식

: 최적 정책을 따라갈 때 현재 상태의 큐함수는 다음 상태에 선택 가능한 행동 중에서 가장 높은 값의 큐함수를 1번 감가하고 보상을 더한 것 과 같다

728x90

저작자표시 (새창열림)

'👩‍💻 인공지능 (ML & DL) > ML & DL' 카테고리의 다른 글

[DEEPNOID 원포인트레슨]_9_AutoEncoder & GAN (0)	2022.01.28
[Deep Learning]_1_머신러닝 수학 (0)	2022.01.28
[DEEPNOID 원포인트레슨]_7_Object Detection 2 (0)	2022.01.27
[DEEPNOID 원포인트레슨]_6_Segmentation 1. U-Net, attention (0)	2022.01.26
[DEEPNOID 원포인트레슨]_5_Detection 1. RCNN (0)	2022.01.26

'👩‍💻 인공지능 (ML & DL)/ML & DL' Related Articles

Comments

😎 공부하는 징징알파카는 처음이지?

[DEEPNOID 원포인트레슨]_8_Reinforcement Learning 본문

[DEEPNOID 원포인트레슨]_8_Reinforcement Learning

'👩‍💻 인공지능 (ML & DL) > ML & DL' 카테고리의 다른 글

티스토리툴바