데이터마이닝분석에서 의사결정나무 분석에 대한 조사
- 최초 등록일
- 2008.04.30
- 최종 저작일
- 2008.04
- 16페이지/ MS 워드
- 가격 3,000원
소개글
본 내용은 데이터마이닝 분석방법 중에서 의사결정나무분석에 대해서 개요, 역사, 분석방법(분할, 가지치기), 장단점, 적용분야 등 의사결정나무에 대해 리포트나 텀프로젝트로 제출할 수 있도록 상세한 설명으로 구성된 보고서입니다. SAS마이닝교재 및 외국데이터마이닝 서적내용을 참고하여 작성하였습니다. 많은 도움이 되었으면 합니다.
목차
1. 의사결정나무 모형 소개
2. 의사결정나무 모형의 구조
3. 의사결정나무 모형의 사용분야
4. 의사결정나무 모형의 구축 과정
5. 분할 기준
6. 분할 방법(Split) : CHAID, CART, C5.0, QUEST
7. 가지치기 방법(Prune)
8. 의사결정나무모형의 단점
9. 의사결정나무 모형의 장점
10. 참고문헌
본문내용
1) 개요
CRM을 포함한 데이터 마이닝 프로젝트에서 빠지지 않고 구축되는 모형으로서 고객에 대한 점수화(scoring)와 세분화(segmentation)가 있다. 고객 점수화는 주로 로지스틱 회귀모형이 가장 널리 사용되고 있으며, 고객 세분화를 위한 방법으로 의사결정나무(decision tree) 모형이 많이 사용된다.
의사결정나무 모형은 Breiman 등에 의해서 소개되었고[Breiman, 1984], Loh 등에 의해 많은 발전이 이루어졌다[Loh, 1997]. 의사결정나무는 모형의 구축과정을 나무형태로 표현하여 대상이 되는 집단을 몇 개의 소집단으로 구분하는 분류 및 예측 기법이다. 즉, 의사결정 규칙을 도표화하여 관심의 대상이 되는 집단을 몇 개의 소집단으로 분류 및 예측을 수행하는 분석 방법이다.
의사결정나무 모형은 결과에 대한 성능이 우수할 뿐만 아니라, 실무자가 구축모형에 대하여 쉽게 이해할 수 있기 때문에 실무에서 많이 사용되고 있다. 왜냐하면 힘들게 구축된 데이터 마이닝 모형을 현업의 실무자가 제대로 이해하지 못하게 된다면 효과적인 전략(마케팅, 제조, R&D 분야 등)수립이 이루어질 수 없기 때문이다.
2) 분석모형 구분
다른 마이닝 기법들에 비해 분석과정이 나무구조로 표현되기 때문에 쉽게 이해되고 설명되어질 수 있다. 의사결정나무 모형은 크게 목표변수가 이산형인 분류나무(classification tree) 모형과 목표변수가 연속형인 회귀나무(regression tree) 모형으로 나눌 수 있다.
3) 알고리즘
분류나무 모형은 목표변수의 각 레이블에 속하는 빈도에 기초하여 분리되며 이산형 목표변수가 잘 구별되는 정도는 카이제곱 검정통계량, 지니 계수, 엔트로피 등의 불순도 측도(impurity measure)에 의해 측정된다. 반면에 회귀나무 모형은 목표변수의 평균에 기초하여 분리되는데 연속형 목표변수가 잘 구별되는 정도는 F-test 값 또는 분산의 감소량 등에 의해 측정된다.
참고 자료
1) SAS Enterprise Miner교육교재
2) Daniel T. Larose , Discovering Knowledge In Data, WILEY, 2005
3) Paolo Giudici, Applied Data Mining, WILEY, 2003
4) Ian H. Witten & Eibe Frank, Data Mining, ELSEVIER, 2005