• 전체
  • 전자/전기
  • 통신
  • 컴퓨터
닫기

사이트맵

Loading..

Please wait....

국내 학회지

홈 홈 > 연구문헌 > 국내 학회지 > 데이터베이스 연구회지(SIGDB)

데이터베이스 연구회지(SIGDB)

Current Result Document : 3 / 9 이전건 이전건   다음건 다음건

한글제목(Korean Title) 다차원 빅데이터를 위한 맵리듀스 기반의 병렬 K-Means 군집화 기법
영문제목(English Title) Parallel K-Means Clustering based on MapReduce for Multi-Dimensional BigData
저자(Author) 최성준   김홍연   민준기   Seongjun Choe   Hongyeon Kim   Jun-Ki Min  
원문수록처(Citation) VOL 35 NO. 01 PP. 0020 ~ 0034 (2019. 04)
한글내용
(Korean Abstract)
군집화는 주어진 데이터 집합에 속한 점들을 여러 개의 군집들로 분류하는 알고리즘으로써 각 군집에 속한 점들은 유사한 특성을 가지도록 하고 유사하지 않은 점들은 서로 다른 군집에 속하도록 하는 것을 목적으로 한다. 다양한 군집화 알고리즘들 중에서 가장 널리 쓰이는 기법은 중심 기반 군집화 기법인 K-Means 알고리즘이다. 본 연구에서는 대용량 데이터 처리를 위한 맵리듀스 프레임워크를 활용한 효과적인 병렬 K-Means 알고리즘인 SMRKMeans을 제안한다. SMRKMeans 알고리즘에서는 각 중심점에 대하여 가장 가까운 중심점까지의 거리를 유지하며, 이를 이용하여 각 데이터에 대한 모든 중심점들까지의 거리를 계산할 필요가 있는지 여부를 효율적으로 판단하도록 하였다. 또한, 기존 병렬 알고리즘과는 달리 SMRKMeans 를 맵 단계로만 구성되도록 설계하여 셔플 및 리듀스 단계 수행을 위한 부담을 제거하였다. 더욱이, 데이터 조각 (data sharding)기법을 적용하여 맵 단계에서 데이터 집합을 네트워크를 통하여 여러 머신에 배분하는 부담을 줄였다.
영문내용
(English Abstract)
키워드(Keyword) 빅데이터   군집화   K-Means   병렬처리   맵리듀스  
파일첨부 PDF 다운로드