• 전체
  • 전자/전기
  • 통신
  • 컴퓨터
닫기

사이트맵

Loading..

Please wait....

국내 학회지

홈 홈 > 연구문헌 > 국내 학회지 > 데이터베이스 연구회지(SIGDB)

데이터베이스 연구회지(SIGDB)

Current Result Document : 16 / 16

한글제목(Korean Title) 감염병의 예측 시점에 따른 변수 중요도 변화 연구
영문제목(English Title) A study on the importance change of variables according to the prediction point of infectious diseases
저자(Author) 정승원   문재욱   심종화   황인준   Seungwon Jung   Jaeuk Moon   Jonghwa Shim   Eenjun Hwang  
원문수록처(Citation) VOL 36 NO. 03 PP. 0020 ~ 0035 (2020. 12)
한글내용
(Korean Abstract)
감염병의 효과적 대응을 위해서는, 감염병 환자 수에 대한 정확한 사전 예측이 중요하다. 이를 위해, 감 염병의 특성을 고려한 수학적 모델링 접근법이 주류를 이루고 있으나, 감염병의 특성에 관한 사전 지식이 요구되는 한계점이 있다. 최근에는 기상이나 과거 발생 데이터와 같은 감염 관련 자료를 활용한 기계학습 기반 예측 모델이 주목을 받고 있다. 이 방법은 기존 방식보다 제약이 덜하나, 높은 예측 정확도를 위해서는 입력 변수로 사용할 요소들에 대한 신중한 선택이 요구된다. 하지만, 각 요소의 중요성은 예측 시점에 따라 달라질 수 있어, 선택이 쉽지 않으며, 이를 해결하기 위한 연구 또한 부족한 실정이다. 이에 본 논문에서는 랜덤 포레스트 기반 감염병 예측 모델을 구성하여, 예측 시점 변화에 따른 변수 중요도 변화를 분석하는 연구 를 수행한다. 먼저, 감염병 발생 정보, 기상 정보 등 관련 자료를 수집하고 전처리하여 데이터셋을 구성한다. 구성된 데이터셋을 기반으로 예측 시점을 변화시키면서 랜덤 포레스트를 학습시키고 변수 중요도를 분석한 다. 국내 발생 감염병을 대상으로 실험을 수행한 결과, 변수 중요도 변화 양상과 감염병의 발생 패턴에 따라 감염병을 세 가지 유형으로 분류할 수 있었으며, 유형마다 중요 입력 변수, 주요 변화 양상 등을 분석할 수 있었다
영문내용
(English Abstract)
In order to cope with infectious diseases, it is important to accurately predict the number of patients who will suffer from them. The traditional approach for this was to construct a mathematical model that considers the characteristics of infectious diseases, so prior knowledge about their characteristics is required. Recently, machine learning-based approach based on relevant data such as weather and past occurrences has drawn much attention. Although this approach is free from the limitation of the traditional approach, the input variables should be selected so that good prediction performance can be achieved. However, the importance of each input changes depending on when the prediction point is. In this paper, we propose a random forest-based prediction model for analyzing the change of variable importances according to the prediction point. To do this, we first collect and pre-process relevant data for the analysis. Then, we train a random forest and obtain the variable importances while changing the prediction point. To evaluate the effectiveness of our approach, we conducted various experiments for domestic infectious diseases and classified them into three clusters. Then, we extracted features from each cluster, such as important input variables and major changes.
키워드(Keyword) 감염병 예측   랜덤 포레스트   변수 중요도   기계 학습   Infectious disease forecasting   random forest   feature importance   machine learning  
파일첨부 PDF 다운로드