인공지능/기초 이론 3

TD, SARSA, 몬테카를로

MDP 모를 때 value 평가 → 몬테카를로, TD몬테카를로MDP를 모른다 ⇒ 보상 함수 $r^a_s$와 전이 확률 $P^a_{ss’}$를 모른다. 단, 그 값을 모르는 것일 뿐 실제 고정된 $r^a_s, P^a_{ss'}$는 존재한다.MDP = MRP + Agent. action변수가 추가됨. → MDP를 모른다. action과 관련된 정보를 모른다. 에이전트가 어떤 행동을 취할지, 그 행동을 취했을 때 어떤지에 대해 전혀 모른다.강화학습은 리턴을 최대화하는 것을 목표로 한다.리턴($\mathrm{G_t}$): t시점부터 미래에 받을 감쇠된 보상의 합. $\mathrm{G_t = R_{t+1}+\gamma R_{t+2} + \gamma^2R_{t+3}+\cdots}$보상함수($\mathrm{R }$)..

Q러닝

Q러닝의 Q는 앞에서 공부한 액션 가치 함수를 의미하고, Q러닝은 Q함수를 학습함으로써 최적의 정책을 찾는 알고리즘을 말한다.출처-위키피디아Q러닝: 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기댓값을 예측하는 함수인 Q함수(액션 가치 함수)를 학습함으로써 최적의 정책을 학습Q함수를 학습하고 나면 각 상태에서 최고의 Q를 주는 행동을 수행함으로써 최적의 정책을 유도할 수 있다. ⇒ Q(s,a)함수를 학습하고 나면 특정 상태 s에서 Q값이 최대가 되는 a를 수행함으로써 최적의 정책을 유도할 수 있다.장점: 주어진 환경의 모델 없이도 수행하는 행동의 기댓값을 비교할 수 있다. $\because$ Q러닝은 임의의 유한 MDP에 대해서 현재 상테에서 최대의 보상을 획득하는 최적의 정책을 학습할..

강화학습 벨만 방정식

최적의 정책을 찾기 위해서는, 정책을 평가해야한다.에피소드마다 미래에 얻을 보상이 다르고, 그 에피소드가 발생할 확률도 다르기 때문에 정책의 value를 구하는 것은 어렵다. 벨만 방정식은 정책의 value를 구하는데 사용된다.벨만 방정식은 시점 t에서의 value와 시점 t+1에서의 value 사이의 관계를 다루고 있고 가치 함수와 정책 함수 사이의 관계도 다루고 있다.벨만 방정식에는 두 가지의 방정식이 존재한다.벨만 기대 방정식: 특정 정책 $\pi$를 평가벨만 최적 방정식: 최적의 value를 갖는 $\pi$를 찾음 벨만 기대 방정식특정 정책 $\pi$를 평가하기 위해 상태 가치 값을 반복적인 방법을 통해 구한다.상태 가치 함수는 다음의 식으로 나타낼 수 있고$$ v_{\pi}(s_t)=\mathb..