심층 강화학습의 일반화를 위한 보상 기반 대조학습

황인우; 송호준; 한동식; 이강훈; 장병탁; Inwoo Hwang; Byoung-Tak Zhan

연구문헌

학술대회 프로시딩

홈 > 연구문헌 > 학술대회 프로시딩 > 한국정보과학회 학술대회 > KCC 2021

KCC 2021

Current Result Document : 6 / 6 이전건

한글제목(Korean Title)	심층 강화학습의 일반화를 위한 보상 기반 대조학습
영문제목(English Title)	Reward-based Contrastive Learning for Generalization in Deep Reinforcement Learning
저자(Author)	황인우 송호준 한동식 이강훈 장병탁 Inwoo Hwang Byoung-Tak Zhan
원문수록처(Citation)	VOL 48 NO. 01 PP. 1086 ~ 1088 (2021. 06)
한글내용 (Korean Abstract)	새로운 환경에 대한 일반화는 픽셀 기반 강화 학습(RL)에서 가장 어려운 작업 중 하나이다. 본 연구에서는 동일한 도메인 내에서 서로 다른 도메인의 샘플들을 활용하는 글로벌 및 로컬 대조 모듈을 가진 새로운 보상 기반 대비학습 프레임워크를 제안하여 이 문제를 해결하는 것을 목표로 한다. 핵심 직관은 유사한 환경의 이미지가 서로 다른 도메인에서 온 이미지일지라도 공통적인 특징을 공유한다는 것이다. 글로벌 대조 모듈의 경우, 우리는 환경의 감독 신호(예: 보상 또는 에피소드 종료 신호)를 활용하고 이를 레이블로 사용하여 서로 다른 도메인에 있는 양성 쌍을 샘플링한다. 하드 포지티브를 사용하여, 우리의 모델은 도메인에 불변하는 강건한 표상을 학습한다. 또한, 우리는 동일한 도메인 안에 있는 이미지들을 구별하는 로컬 대비 학습 체계를 제안한다. 우리는 프록젠 벤치마크에서 우리의 방법을 시연하고 제안된 방법이 일반화를 크게 개선하고 이전 방법론들에 비해 최첨단 성능을 달성한다는 것을 보여준다. 제안된 프레임워크는 간단하지만 효과적이며 모든 RL 알고리즘과 결합될 수 있다.
영문내용 (English Abstract)
키워드(Keyword)
파일첨부	PDF 다운로드