강건한 스케줄링을 위한 마코프 의사결정 프로세스 추론 및 역강화 학습 기반 일상 행동 학습

이상우; 곽동현; 온경운; 허유정; 강우영; 재이다; 장병탁; Sang-Woo Lee; Dong-Hyun Kwak; Kyoung-Woon On; Yujung Heo; Wooyoung Kang; Ceyda Cinarel; Byoung-Tak Zhang

연구문헌

국내 논문지

홈 > 연구문헌 > 국내 논문지 > 한국정보과학회 논문지 > 정보과학회 컴퓨팅의 실제 논문지 (KIISE Transactions on Computing Practices)

정보과학회 컴퓨팅의 실제 논문지 (KIISE Transactions on Computing Practices)

Current Result Document : 5 / 46 이전건 다음건

한글제목(Korean Title)	강건한 스케줄링을 위한 마코프 의사결정 프로세스 추론 및 역강화 학습 기반 일상 행동 학습
영문제목(English Title)	Robust Scheduling based on Daily Activity Learning by using Markov Decision Process and Inverse Reinforcement Learning
저자(Author)	이상우 곽동현 온경운 허유정 강우영 재이다 장병탁 Sang-Woo Lee Dong-Hyun Kwak Kyoung-Woon On Yujung Heo Wooyoung Kang Ceyda Cinarel Byoung-Tak Zhang
원문수록처(Citation)	VOL 23 NO. 10 PP. 0599 ~ 0604 (2017. 10)
한글내용 (Korean Abstract)	유저의 일상 스케쥴을 제안하고 예측하는 서비스는 스마트 비서의 흥미로운 응용이다. 전통적인 방법에서는 유저의 행동을 예측하기 위하여, 유저가 직접 자신의 행동을 기록하거나, e-mail 혹은 SNS 등에서 명시적인 일정 정보를 추출하여 사용해왔다. 하지만, 유저가 모든 정보를 기록할 수 없기에, 스마트 비서가 얻을 수 있는 정보는 제한적이며, 유저는 유저의 일상의 routine한 정보를 기록하지 않는 경향이 있다. 본 논문에서는 스케줄러에 적히는 정형화된 일정인 스케줄과 비정형화된 일정을 만드는 일상 행동 패턴들을 동시에 고려하는 접근 방법을 제안한다. 이를 위하여 마코프 의사 결정 프로세스 (MDP)를 기반으로 하는 추론 방법과 역강화 학습 (IRL)을 통한 보상 함수 학습 방법을 제안한다. 실험 결과는 우리가 6주간 모은 실제 생활을 기록한 데이터 셋에서 우리의 방법이 기존 방법들보다 우수한 성능을 보임을 논증한다.
영문내용 (English Abstract)	A useful application of smart assistants is to predict and suggest users’ daily behaviors the way real assistants do. Conventional methods to predict behavior have mainly used explicit schedule information logged by a user or extracted from e-mail or SNS data. However, gathering explicit information for smart assistants has limitations, and much of a user’s routine behavior is not logged in the first place. In this paper, we suggest a novel approach that combines explicit schedule information with patterns of routine behavior. We propose using inference based on a Markov decision process and learning with a reward function based on inverse reinforcement learning. The results of our experiment shows that the proposed method outperforms comparable models on a life-log dataset collected over six weeks.
키워드(Keyword)	일정 관리 마코프 의사 결정 프로세스 역강화 학습 웨어러블 디바이스 schedule planning markov decision process inverse reinforcement learning wearable devices
파일첨부	PDF 다운로드