데이터 마이닝 기법 (클러스터링), K-mean, K-nearest neighbors (K-NN), Support vector machines (SVMs)의 성능
- 최초 등록일
- 2007.09.28
- 최종 저작일
- 2007.08
- 7페이지/ 한컴오피스
- 가격 1,000원
소개글
데이터 마이닝 기법 (클러스터링)
K-mean, K-nearest neighbors (K-NN), Support vector machines (SVMs)의 세가지
방법의 특징과 예제를 통한 실행 과정을 기술하였다.
목차
§ 군집탐색 (clustering)
° K-means clustering
° K-nearest neighbors (K-NN)
° Support vector machines (SVMs)
본문내용
§ 군집탐색 (clustering)
- clustering을 통하여 데이터를 다수의 특징을 이용해 구분지음으로써,
각 데이터가 가지고 있는 여러 가지 정보를 transaction 단위로 재해석하기 위함.
- 일반적인 데이터의 구분은 규칙을 벗어나는 데이터에 대해서는 데이터의 통합이나 분류가 어렵다.
- 이러게 데이터들을 패턴을 파악하고 분류하는 것을 ‘데이터 마이닝’이라고 한다.
° K-means clustering
- 거리에 기반을 둔 clustering 기법
- 기준점에 가까운 곳의 데이터들을 하나의 군집으로 묶는 방법
- 수행과정
․ 임의의 K개의 군집수와 위치 설정
․ 각각의 데이터에 대해 K개의 위치까지의 거리를 구하고 가장 가까운 군집에 소속
․ 군집으로 나뉘어진 데이터를 기준으로 군집중앙의 위치를 제 설정
․ 새롭개 구한 군집중앙의 위치가 기존과 동일하면 알고리즘 종료, 다르면 두 번째부터 재 수행
- 이 과정을 통하여 K개의 군집으로 테이터를 구분.
~: K값에 따라 clustering에 많은 영향을 받음.
~: (matlab) IDX=KMEANS(X, K)
ex) MATLAB
x = [rand(100,2)*0.25 ; rand(100,2)*0.5];
y1 = kmeans(x, 5);
y2 = kmeans(x, 10);
scatter (x(:,1), x(:,2), 3, y1, `filled`);
scatter (x(:,1), x(:,2), 3, y2, `filled`);
partitions the points in the data matrix X into K clusters.
참고 자료
없음