Data Preparation
- 최초 등록일
- 2024.04.06
- 최종 저작일
- 2020.04
- 6페이지/ 어도비 PDF
- 가격 1,000원
소개글
feature extraction and portability, data cleaning, data reduction and transformation에 대한 설명입니다.
목차
1. feature extraction and portability
2. data cleaning
3. data reduction and transformation
본문내용
1. feature extraction and portability
feature extraction은 다양한 출처(센서, 이미지, 웹 기록, 침입감지, 문서 등)에서 데이터를 얻는 것을 말한다. portability는 다른 유형으로 데이터를 변환하는 것을 말한다.
Portability Example Discretization: 가장 흔하게 사용되는 변환이며, 정보를 일부분 소실하는 것이 특징이다. 문제점은 일정하지 않은 간격으로 데이터들이 불일치하게 분배되어 있다는 것이다. ① Equi-width ranges: 각 범위 [a,b]는 b-a와 같은 방식으로 선택 되고, 불일치하게 분배되어 있는 데이터에는 적용되지 않는다. [최솟값, 최댓값]은 φ정도의 일정한 길이로 나누어 진다. ② Equi-log ranges: 각 범위 [a,b]는 log(b)-log(a)와 같은 방식으로 선택된다. 이러한 방법의 범위 선택은 기하학적으로 크기가 증가하는 효과가 있다. ③ Equi-depth ranges: 각 범위는 동일한 수의 기록을 갖고, 각 범위에 세분화를 제공하는 것을 말한다. Binarization: categorical한 성질을 binary한 형태로 바꾸고 binary된 데이터에 대해서 numeric algorithms를 사용한다. φ속성 중 하나는 1값을 가지고, 나머지는 0값을 가진다. LSA: 차원이 높아지면 공간의 크기는 기하급수적으로 커져서 데이터 분포가 sparse하게 되고 성능은 기하급수적으로 떨어지는 것을 차원의 저주라고 부른다. 따라서 LSA는 낮은 차원에서 데이터를 sparse하지 않은 표현으로 변환하는 것을 말한다. 변환 후 스케일링을 적용하기도 하는데, 스케일링은 다양한 길이의 문자들을 균일하게 변환하는데 필요하다.
참고 자료
없음