단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류

주종민; 김남훈; 양형정; 박혁로; Jong-Min Joo; Nam-Hun Kim; Hyung-Jeong Yang; Hyuck-Ro Park

연구문헌

국내 논문지

홈 > 연구문헌 > 국내 논문지 > 한국정보처리학회 논문지 > 정보처리학회 논문지 소프트웨어 및 데이터 공학

정보처리학회 논문지 소프트웨어 및 데이터 공학

Current Result Document :

한글제목(Korean Title)	단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류
영문제목(English Title)	Document Classification using Recurrent Neural Network with Word Sense and Contexts
저자(Author)	주종민 김남훈 양형정 박혁로 Jong-Min Joo Nam-Hun Kim Hyung-Jeong Yang Hyuck-Ro Park
원문수록처(Citation)	VOL 07 NO. 07 PP. 0259 ~ 0266 (2018. 07)
한글내용 (Korean Abstract)	본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.
영문내용 (English Abstract)	In this paper, we propose a method to classify a document using a Recurrent Neural Network by extracting features considering word sense and contexts. Word2vec method is adopted to include the order and meaning of the words expressing the word in the document as a vector. Doc2vec is applied for considering the context to extract the feature of the document. RNN classifier, which includes the output of the previous node as the input of the next node, is used as the document classification method. RNN classifier presents good performance for document classification because it is suitable for sequence data among neural network classifiers. We applied GRU (Gated Recurrent Unit) model which solves the vanishing gradient problem of RNN. It also reduces computation speed. We used one Hangul document set and two English document sets for the experiments and GRU based document classifier improves performance by about 3.5% compared to CNN based document classifier.
키워드(Keyword)	문서 분류 Word2vec Doc2vec 순환신경망 GRU Document Classification Word2vec Doc2vec Recurrent Neural Network Gated Recurrent Unit
파일첨부	PDF 다운로드