2019년 2학기 데이터마이닝 중간과제물
- 최초 등록일
- 2020.03.06
- 최종 저작일
- 2019.12
- 6페이지/ 어도비 PDF
- 가격 4,500원
소개글
"2019년 2학기 데이터마이닝 중간과제물"에 대한 내용입니다.
목차
1. 데이터마이닝은 학습의 방법에 따라 지도학습과 자율학습으로 나 눌 수 있다. 각 학습방법의 의미를 설명하고 어떤 데이터마이닝 기법들이 포함되는지 기술하시오. (6점)
2. 보스턴하우징데이터(Boston)에 다중선형회귀모형을 적합하고 자 한다. step() 함수를 이용하여 변수선택을 한 모형을 적합한다고 할 때, 변수선택 전후의 모형의 예측력을 MSE 기준으로 비교하시오. (6점)
3. 두 변수 x1과 x2는 1, 2, 3 등 세 가지 값을 가지는 데이터가 있다. 이 데이터의 목표변수는 집단의 소속정보를 나타내는 분류분석에 적당한 데이터 이다. 2 개의 집단이 있다고 할 때, 각 집단별로 x1과 x2에 대하여 분할표를 다음 표와 같이 생성하였다. 다음 물음에 답하시오. (9점)
(1) 지니지수를 이용하여 최적의 분리점을 찾으시오.
(2) 뿌리노드가 한번 분할된 분류나무를 생성하고, 두 자식노드에서 관찰치 들 의 집단별 빈도를 밝히시오.
(3) 위에서 생성된 분류나무의 오분류율을 계산하시오.
4. 아래와 같은 범주형 변수 X1이 있다고 하자. 총 관찰치의 수는 18개이며 흰 색집단에 10개 검정색 집단에 8개의 관찰치가 포함되어 있다. 이 데이터에 CART 방법의 지니지수를 이용하여 분할집합을 찾으려 한다. 아래의 표를 채 우 고, 최적의 분할집합을 찾으라. (9점)
본문내용
1. 데이터마이닝은 학습의 방법에 따라 지도학습과 자율학습으로 나 눌 수 있다. 각 학습방법의 의미를 설명하고 어떤 데이터마이닝 기법들이 포함되는지 기술하시오. (6점)
지도학습은 입력데이터에 대한 명시적인 출력값(Label)이 주어진 상태에서 입출력간의 관계에 대한 유용한 근사 시스템을 구하는 것으로 정의할 수 있고 자율학습은 지도학습과 반대로 명시적인 출력값이 존재하지 않는 상황에서 데이터의 형태 및 특징을 찾아내는데 초점을 두고있다.
지도학습의 대표적인 학습방법으로는 회귀 및 분류가 있으며 회귀는 주로 목표변수가 연속형 변수일 경우, 분류는 목표변수가 주로 범주형 변수일 경우 사용되고 있다. 자율학습은 앞서 언급한 바와 같이 목표변수가 존재하지 않기 때문에 데이터간의 특성을 기반으로 군집을 찾는 군집분석, 연관성을 파악하고자 하는 연관성분석, 그리고 고차원 데이터간의 연관성을 바탕으로 저차원으로 변환해주는 주성분 분석 등이 있다.
2. 보스턴하우징데이터(Boston)에 다중선형회귀모형을 적합하고 자 한다. step() 함수를 이용하여 변수선택을 한 모형을 적합한다고 할 때, 변수선택 전후의 모형의 예측력을 MSE 기준으로 비교하시오. (6점)
설명
MSE 기준, 전체 변수를 사용한 모델은 12.89972, step을 통해 indus, age 변수를 제거한 모델은 12.92344으로 step을 통해서 변수를 선택한 모델의 예측력이 상대적으로 안좋다고 판단하였습니다.
참고 자료
없음