빠른 클러스터 개수 선정을 통한 효율적인 데이터 클러스터링 방법
* 본 문서는 배포용으로 복사 및 편집이 불가합니다.
서지정보
ㆍ발행기관 : 한국산업경영시스템학회
ㆍ수록지정보 : 산업경영시스템학회지 / 41권 / 2호
ㆍ저자명 : Sung-Soo Kim, Bum-Su Kang
ㆍ저자명 : Sung-Soo Kim, Bum-Su Kang
목차
1. 연구의 배경 및 목적12. 빠른 클러스터 수 선택과 휴리스틱 알고리즘
2.1 데이터 클러스터링 문제와 빠른 클러스터 수선택 방법
2.2 거리의 상대적인 비율을 적용한 휴리스틱 알고리즘
3. 실험 및 분석
3.1 빠른 클러스터 수 선택
3.2 거리의 상대적인 비율을 적용한 휴리스틱알고리즘 분석
4. 결 론
References
영어 초록
K-means algorithm is one of the most popular and widely used clustering method because it is easy to implement and very efficient. However, this method has the limitation to be used with fixed number of clusters because of only considering the intra-cluster distance to evaluate the data clustering solutions. Silhouette is useful and stable valid index to decide the data clustering solution with number of clusters to consider the intra and inter cluster distance for unsupervised data. However, this valid index has high computational burden because of considering quality measure for each data object. The objective of this paper is to propose the fast and simple speed-up method to overcome this limitation to use silhouette for the effective large-scale data clustering. In the first step, the proposed method calculates and saves the distance for each data once. In the second step, this distance matrix is used to calculate the relative distance rate (Vj) of each data j and this rate is used to choose the suitable number of clusters without much computation time. In the third step, the proposed efficient heuristic algorithm (Group search optimization, GSO, in this paper) can search the global optimum with saving computational capacity with good initial solutions using Vj probabilistically for the data clustering. The performance of our proposed method is validated to save significantly computation time against the original silhouette only using Ruspini, Iris, Wine and Breast cancer in UCI machine learning repository datasets by experiment and analysis. Especially, the performance of our proposed method is much better than previous method for the larger size of data.참고 자료
없음"산업경영시스템학회지"의 다른 논문
- 역정규 손실함수를 이용한 다변량 공정능력지수10페이지
- 간판의 기능과 디자인 요소가 고객 선호도에 미치는 영향7페이지
- 망외부성이 존재하는 상품에 대한 독점 기업의 수직차별화 전략 분석8페이지
- SOC 자본스톡 추계에 있어서 수익적 지출과 자본적 지출의 적합 분배6페이지
- 유형고정자산 감정을 위한 내용연수 산정12페이지
- 품질경영활동이 중소기업 경영성과에 미치는 영향8페이지
- 삼각 과오 분포를 가진 불완전한 검사원의 과대 추정 확률과 분석16페이지
- 소프트 제약을 포함하는 조립라인 밸런싱 문제 최적화12페이지
- 서울 수도권 지하철망의 호선별 망 매개 중심성과 승객 흐름 분석10페이지
- 센서 데이터를 이용한 전기 기관차의 이상 상태 요인분석11페이지