• 전체
  • 전자/전기
  • 통신
  • 컴퓨터
닫기

사이트맵

Loading..

Please wait....

국내 학회지

홈 홈 > 연구문헌 > 국내 학회지 > 데이터베이스 연구회지(SIGDB)

데이터베이스 연구회지(SIGDB)

Current Result Document : 8 / 11 이전건 이전건   다음건 다음건

한글제목(Korean Title) 시맨틱 텐서공간모델 기반 텍스트데이터 증식기법
영문제목(English Title) A Text Data Augmentation Technique based on Semantic Tensor Space Model
저자(Author) 김한준   Han-Joon Kim   이길재   Gil-Jae Lee  
원문수록처(Citation) VOL 35 NO. 03 PP. 0077 ~ 0086 (2019. 12)
한글내용
(Korean Abstract)
데이터 증식은 기존의 데이터에서 약간의 변형을 갖는 새로운 데이터를 생성하는 과정이다. 데이터 증식은 데이터의 다양성을 확보함으로써 기계학습에서 모델의 과적합을 방지하고 성능을 향상시키는 데 도움을 준다. 컴퓨터 비전 분야에서 데이터 증식이 활발히 활용되는 데 반해, 텍스트마이닝 분야에서는 데이터 증식의 사용이 제한적이다. 이는 임베딩을 필요로 하는 텍스트데이터의 특성상, 증식 과정에서 원본과 전혀 다른 의미를 갖는 데이터가 생성될 위험이 있기 때문이다. 이에 본 논문은 시맨틱 텐서공간모델을 활용한 텍스트데이터 증식기법을 제안한다. 제안하는 증식기법은 텍스트데이터가 갖는 증식문제에서 자유롭고, 기존의 증식기법들과 달리 간단한 연산만을 활용하기 때문에 간편하게 수행할 수 있는 장점이 있다. 본 논문은 문서분류 실험을 통해 제안한 증식기법으로 생성한 데이터들이 모델의 성능향상을 이끌어냄을 보임으로써 제안기법의 유효성을 검증한다.
영문내용
(English Abstract)
Data augmentation is the process of generating new data with little variation to existing data. Data augmentation helps to prevent model's overfitting and improve performance in machine learning by ensuring data diversity. While data augmentation is actively used in computer vision, the use of data augmentation is limited in text mining. This is because, due to the nature of text data requiring embedding, there is a risk that data having a completely different meaning from the original is generated during the augmentation process. In this paper, we propose a text data augmentation technique based on semantic tensor space model. The proposed augmentation technique does not cause the augmentation problem of text data, and unlike the existing augmentation techniques, it can be easily performed because it uses only simple operations. This paper verifies the validity of the proposed augmentation technique by showing that the data generated by the proposed technique leads to the performance improvement of the model.
키워드(Keyword) 데이터 증식   텍스트데이터   시맨틱 텐서공간모델   기계학습. 학습데이터   Data Augmentation   Text Data   Training Data   Semantic Tensor Space Model   Machine Learning  
파일첨부 PDF 다운로드