은닉 마르코프 모델을 이용한 효율적인 한국어 품사의 태깅

김재훈; 임철수; 서정연; JaeHoon Kim; ChulSu Lim; JungYun Seo

연구문헌

국내 논문지

홈 > 연구문헌 > 국내 논문지 > 한국정보과학회 논문지 > (구)정보과학회 논문지

(구)정보과학회 논문지

Current Result Document : 1 / 1

한글제목(Korean Title)	은닉 마르코프 모델을 이용한 효율적인 한국어 품사의 태깅
영문제목(English Title)	An Efficient Korean Part-of-Speech Tagging using a Hidden Markov Model
저자(Author)	김재훈 임철수 서정연 JaeHoon Kim ChulSu Lim JungYun Seo
원문수록처(Citation)	VOL 22 NO. 01 PP. 0136 ~ 0146 (1995. 01)
한글내용 (Korean Abstract)	품사 태깅은 자연언어 처리 분야에서 품사의 모호성 해소는 물론 음석인식 및 문자인식의 후처리기로서 많이 사용도고 있다. 본 논문은 은닉 마르코프 모델은 이용한 한국어 품사 태깅에 관해서 논한다. 한국어는 영어와는 달리 품사 태깅을 할 때에 어절이 분리 되어야 한다. 어질 분리될 때에 한국어의 경우에 여러 종류로 분리되어 이를 은닉 마르코프 모델에 적용할 경우에 다입력열(다입력 단어열) 문제가 발생된다. 본 논문에서는 은닉 마르코프 모델을 이용하여 한국어 품사 태깅 문제를 풀 때에 이와 같은 문제의 해결방법을 제시하고, 이들에 대한 효율적인 방법을 제시한다. 한국어 품사 태깅을 위한 은닉 마르코프 모델의 학습은 올바른 형태소를 분리한 학습 말뭉치를 만듦으로써 해결하고, 품사열(상태열) 찾기는 공유 단어열의 개념을 이용하여 해결하고 가상 단어 개념을 이용하여 좀 더 효율적인 방법을 제시한다. 또 한국어 문장에 대한 품사 태깅을 실제 적용 실험하여 제시한 방법의 유용성을 보였다.
영문내용 (English Abstract)	Applications of a part-of-speech tagging system include ambiguity resolution in natural language processing, a post-processing in speech recognition and character recognition and so on. In this paper, we describe a Korean part-of-speech tagging system. In Korean, most word phrases are made up of more than one morpheme. However, one word phrase may be analyze in several different ways due to morphological ambiguities. Furthermore, each analyzed result may consist of different numbers of morphemes. It causes multiple observation(word) sequences in the hidden Markov model for part-of-speech tagging. To alleviate the problems, in this paper we suggest a method for assigning a part-or-speech tag to each morpheme in Korean. The method is based on a hidden Markov model which can be trained without using any tagged corpus. To relax the amount of computation to process multiple word sequences, which are extraordinarily occurred in Korean part -of-speech tagging, we develop a revised Viterbi algorithm for determining the most promising tag sequence using shared word sequences and virtual observarions(words). Experimental results show that the model in useful in Korean part-of-speech tagging.
키워드(Keyword)
파일첨부	PDF 다운로드