(방송대) 데이터 마이닝, 출석수업 과제물 (2023 1학기, 30점 만점)
- 최초 등록일
- 2024.03.10
- 최종 저작일
- 2023.05
- 10페이지/ 한컴오피스
- 가격 4,000원
소개글
"(방송대) 데이터 마이닝, 출석수업 과제물 (2023 1학기, 30점 만점)"에 대한 내용입니다.
목차
1. 데이터마이닝은 데이터에서 의미를 추출하는 기법을 의미하며, 모수적 모형 접근 방법과 알고리즘 접근 방법이 모두 활용될 수 있다. 모수적 모형 접근법과 알고리즘 접근법의 특징, 장단점 및 사례를 조사하시오. 또한 SNS에 게시된 텍스트 데이터를 분석한다고 할 때, 어떤 주제를 분석하면 좋을지 자신만의 독창적인 주제를제안하고 이를 분석하기 위해서는 어떤 방법을 이용하면 의미있는 결과를 도출할 수 있을지 데이터 마이닝 측면에서 논하시오. (10점)
2. 와인품질 데이터에 로지스틱 회귀모형을 적합하고자 한다. 과거의 분석 경험을 통해 alcohol 변수와 sulphates 두 변수가 매우 중요한 변수라는 것이 밝혀졌다고하자. 다음 각각의 모형을 적합하고 결과를 비교하시오.
3. 입력변수와 목표변수가 모두 범주형인 어떤 데이터의 두 입력 변수 X1과 X2는 1, 2, 3 등 세 가지 값을 갖고, 목표변수는 Y=1, Y=2의 2개의 범주를 갖는다고 할 때, 각 집단별로 X1과 X2에 대하여 분할표를 아래와 같이 생성하였다. 물음에 답하시오. (10점)
본문내용
데이터 마이닝(data mining)은 대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙, 등을 탐색하여 모형화해 유용한 지식을 추출하는 일련의 과정이다. 데이터 마이닝에는 모수적 모형 접근방법(parametric modeiling apporoach), 알고리즘 접근방법(algorithmic approach)등이 있다.
모수적 모형 접근 방법은 우선 모형을 설정하고 단순선형회귀분석과 같이 수치적으로 모수를 찾아내어 데이터를 적합하는 것이다. 단순 선형 회귀분석인 Y=a+bx와 같이 모수 a와 b를 과거 데이터로부터 추정하는 방법 이다. 즉, 모형식을 세운 후 식 내의 모수 데이터를 활용해 최대우도추정법, 최소제곱법 등에 의해 구하는 방식이다. 대표적인 예로 로지스틱 회귀모형, 선형 회귀분석 등이 있다. 모수적 모형 접근 방법은 단순하여 결과와 해석이 용이해 해석하기 쉬우며, 데이터를 학습하는 것이 빠르다는 장점이 있다. 단점으로는 가정이 맞지 않거나 설정한 식에 부합하지 않는 경우 그 성능이 낮을 수 있다. 대표적인 방법으로는 선형 회귀 분석, 로지스틱 회귀모형 등이 있다.
알고리즘 접근방법은 주어진 알고리즘으로 계산하여 결과를 분석하는 방식이다. 알고리즘 즉, 정해진 방식 혹은 프로그래밍을 통해 데이터로 학습을 하게 된다. 데이터 마이닝에서는 머신러닝에 가까운 방법이다. 알고리즘 접근 방법의 장점으로는 데이터의 복잡성이 높아도 적용이 가능하다는 점을 들 수 있다. 그러나 알고리즘의 속성이나 방법 등 이론적 근거를 제대로 이해하지 못하고 사용할 경우, 잘못된 방식으로 데이터 마이닝을 할 수 있다는 단점이 있다. 또한, 복잡한 알고리즘일 경우 기계만이 인지할 수 있는 결과 때문에 해석이 어려울 수 있다. 대표적인 방법으로는 의사결정나무, 신경망모형, 배깅, 부스팅, 등이 있다.
참고 자료
없음