Skip to main content

Vocabulary for AI +007

· 3 min read

Vocabulary & Expressions

Term/ExpressionDefinitionSimpler ParaphraseMeaning
refereeA person who supervises a game or match to ensure the rules are followedUmpire심판
nonterminal stateThe agent is still in the middle of the episode. The environment can continue to produce rewards, and the agent can still take actions.ongoing state비종결 상태
apprenticeshipa period of time working as an apprenticeinternship수습 기간
in a similar veinin a similar waysimilarly비슷한 맥락에서
subsequentcoming after something in time; followingfollowing그 다음의
in the sensein the most limited meaning of a word, phrase, etc.in the meaning~라는 의미에서
hypothesisa supposition or proposed explanation made on the basis of limited evidence as a starting point for further investigationassumption가설
untimelyhappening or done at an unsuitable timeill-timed때 아닌, 시기상조의
utilitythe state of being useful, profitable, or beneficialusefulness효용
thereafterafter that timeafter that그 후에
analogya comparison between two things, typically for the purpose of explanation or clarificationcomparison유추, 비유
inherentexisting in something as a permanent, essential, or characteristic attributeintrinsic내재하는, 타고난

RL

항목Policy evaluationPassive learningPolicy search
정책 (π)고정, 외부에서 주어짐고정, 외부에서 주어짐없음 → 직접 탐색·개선
환경 모델 (P, R)모두 알고 있음 (완전한 MDP)모름, 경험으로 추정알 수도 있고 모를 수도 있음
학습 목표주어진 정책 하에서 Uπ(s)U^\pi(s) 계산주어진 정책 하에서 Uπ(s)U^\pi(s) 경험 기반 추정최적 정책 π\pi^*를 직접 찾기
접근 방식벨만 방정식 기반 반복 계산 (iterative policy evaluation)환경을 실제로 탐험하면서 transition & reward 관찰, 그로부터 utility 추정정책 파라미터를 조금씩 바꾸며 return 극대화 (policy gradient, evolutionary search 등)
필요 데이터없음 (모델이 다 주어짐)환경 경험 (trajectory, reward sequence)환경 경험 (보상 피드백), 때로는 gradient
계산/학습 특징계산 문제, 오차 없이 수렴 가능샘플 효율 낮음, Monte Carlo/TD 방식 사용gradient variance 큼, local optimum 위험
적용 예시교재의 Gridworld (모델식 다 알려진 경우)환경은 블랙박스, 정책 고정 실험 (시뮬레이션 따라다니기)로봇 제어, 연속 행동 공간 (PPO, REINFORCE 등)
장점정확·빠름, 모델만 있으면 해석 용이모델이 없어도 가능, 실제 환경에서 학습연속·복잡한 행동 직접 최적화 가능
단점현실 환경은 모델을 모르는 경우가 많음정책을 개선할 수는 없음 (평가 전용)학습 불안정, 많은 데이터 필요

R(St,π(St),St+1)R(S_t,π(S_t),S_{t+1})

시간 tt에 상태 StS_t에 있었고, 정책이 정한 행동 π(St)π(S_t)을 했더니, 다음 상태 St+1S_{t+1}에 도착했다. 그때 받는 보상은 R(St,π(St),St+1)R(S_t,π(S_t),S_{t+1})이다.

  • 현재 상태에서 정책이 정한 행동을 취해 다음 상태로 갔을 때 받은 보상
  • StS_t: 시간 tt에 에이전트가 위치한 현재 상태
  • π(St)π(S_t): 정책 π가 현재 상태 StS_t에서 선택한 행동 (action)
  • St+1S_{t+1}: 그 행동을 수행한 뒤 도달한 다음 상태
  • RR: 이 세 가지 (현재 상태, 행동, 다음 상태)에 의해 결정되는 보상 함수

Passive RL

  • Direct Utility Estimation
  • ADP (Adaptive Dynamic Programming)
  • TD (Temporal Difference Learning)