MDP 모를 때 value 평가 → 몬테카를로, TD몬테카를로MDP를 모른다 ⇒ 보상 함수 $r^a_s$와 전이 확률 $P^a_{ss’}$를 모른다. 단, 그 값을 모르는 것일 뿐 실제 고정된 $r^a_s, P^a_{ss'}$는 존재한다.MDP = MRP + Agent. action변수가 추가됨. → MDP를 모른다. action과 관련된 정보를 모른다. 에이전트가 어떤 행동을 취할지, 그 행동을 취했을 때 어떤지에 대해 전혀 모른다.강화학습은 리턴을 최대화하는 것을 목표로 한다.리턴($\mathrm{G_t}$): t시점부터 미래에 받을 감쇠된 보상의 합. $\mathrm{G_t = R_{t+1}+\gamma R_{t+2} + \gamma^2R_{t+3}+\cdots}$보상함수($\mathrm{R }$)..