멀티 에이전트 환경에서 다양한 전략에 강인한 멀티스킬 강화학습 에이전트 설계 가능성 연구

이민지; 장예원; 조수연; 주하람; Minji Lee; Yewon Jang; Suyeon Cho; Haram Joo

연구문헌

학술대회 프로시딩

홈 > 연구문헌 > 학술대회 프로시딩 > 한국정보과학회 학술대회 > KSC 2019

KSC 2019

Current Result Document :

한글제목(Korean Title)	멀티 에이전트 환경에서 다양한 전략에 강인한 멀티스킬 강화학습 에이전트 설계 가능성 연구
영문제목(English Title)	On the design of multi-skilled reinforcement learning agents robustly coping with contextual changes in the environments
저자(Author)	이민지 장예원 조수연 주하람 Minji Lee Yewon Jang Suyeon Cho Haram Joo
원문수록처(Citation)	VOL 46 NO. 02 PP. 1785 ~ 1787 (2019. 12)
한글내용 (Korean Abstract)	환경 정보 학습 없이 경험에 의존하여 학습하는 Model-free 강화학습 에이전트는, 빠른 의사 결정을 통해 높은 효율을 보이는 반면, 환경이 변하거나 다양한 상대 전략이 존재하는 경우 변화에 유연하게 대응하지 못하고 의사 결정 능력이 급격하게 저하되는 단점이 있다. 그러나, 인간 두뇌는 model-free뿐만 아니라 환경 정보를 학습하여 계획을 기반으로 의사결정을 수행하는 Model-based 강화학습도 유연하게 사용하여 환경 변화에 대해 강인하게 대응하면서 높은 효율도 유지하는 메커니즘을 보유하고 있다. 본 논문은 인간두뇌의 model-based 강화학습을 모방한 강화학습 에이전트를 설계하고, 이를 통해 게임 환경에서 다양한 상대 및 전략 변화에 강인한 멀티스킬 강화학습 에이전트 설계 가능성을 확인하고자 한다. 이를 위해 LSTM Embedded DQN (LED) 구조를 통해 상대방 전략 변화에 따른 환경 상태 변화를 예측하고, 이를 DQN의 의사결정에 반영하여 변화하는 상대 에이전트 전략에 우위를 점할 수 있는 멀티스킬 강화학습 에이전트를 제안하였다. LED 에이전트는 상대움직임 좌표를 예측하는 LSTM 네트워크 집합과 이들을 관리하는Regulator, 그리고 행동을 결정하는 DQN 네트워크로 이루어져있다. LED 에이전트는 5개의 서로 다른 상대와 Atari Pong을 수행했을 때, 상대 전략에 의한 환경 상태 변화를 예측할 수 있도록 성공적으로 학습되었으며, 이를 통해 상대방의 전략이 변경되었을 때에도 변화에 대응하는 유연한 전략을 수립, 비교 모델에 비해 높은 누적 보상 수치를 보였다.
영문내용 (English Abstract)
키워드(Keyword)
파일첨부	PDF 다운로드