Skip to main content

강화학습

· 3 min read

강화학습 개념

  • 에이전트가 환경과 상호작용하여 보상을 최대화하는 행동을 학습하는 방법
  • 복잡한 환경에서의 문제 해결, 환경 상호작용, 보상 기반 학습

강화학습 구성도, 주요 알고리즘, 적용방안

강화학습 구성도

  • 상태를 인식하고, 행동을 취하며, 보상을 최대화하는 최적의 정책 학습

강화학습 주요 알고리즘

구분내용비고
Q-Learning가치기반 학습방법, 각 상태-행동 쌍에 대한 가치를 업데이트하여 최적 정책 학습오프라인학습, 단순 문제
SARSA실제 정책을 사용하여 상태-행동 가치함수를 학습하는 시간차 방법온라인 학습
DQN딥러닝을 이용한 Q-Learning, 신경망을 사용하여 Q값을 근사 처리복합한 문제
Policy Gradient보상 기대값을 최대화하는 방향의 정책을 직접 학습연속적 행동 적합
Actor-Critic정책기반과 가치기반 알고리즘 결합, 액터는 정책경사모델로 행동 결정, 크리틱은 Q러닝으로 행동 비평안정성, 효율성

강화학습 적용방안

구분내용비고
게임AI게임 내 최적 전략을 학습하여 사람과 경쟁가능한 AI 개발Starcraft, Dota2
로봇제어로봇 움직임을 강화학습하여 자율적 환경 탐색 및 작업 수행자율주행, 드론제어
금융거래거래 데이터로 강화학습하여 최적의 거래 전략 학습/적용리스크 관리, 포트폴리오 최적화

강화학습 고려사항

  • Exploitation과 Exploration 사이의 적절한 균형을 찾는 알고리즘 선택