빅데이터 분석 기사 2024 필기 2과목
- 최초 등록일
- 2024.04.19
- 최종 저작일
- 2024.01
- 20페이지/ 어도비 PDF
- 가격 3,900원
소개글
"빅데이터 분석 기사 2024 필기 2과목"에 대한 내용입니다.
목차
없음
본문내용
2-1과목 데이터 탐색
1. 데이터 전처리
- 원시 데이터는 정제, 데이터 통합, 데이터 변환 등을 통해 분석에 최적화된 형태로 변형하는 과정
- 매우 중요한 단계
- 분석 프로젝트를 진행할 때마다 데이터 전처리 과정 필수
- 많은 시간과 역량 필요
- 데이터의 양뿐만 아니라 질적인 면도 고려
(어노테이션(Annotation) : 사람이 일일이 경계선으로 구분 짓고 라벨링 하는 전처리 과정)
2. 데이터 전처리 유형
데이터 정제 데이터 내의 결측치와 이상치를 파악하고, 이를 제거하거나 적절한 값으로 대치
데이터 통합 여러 테이블에 저장된 데이터들을 병합하거나 통합하여 분석에 적절한 데이터셋을 생성하는 작업
데이터 축소 분석에 필요한 변수들만 선택, 데이터의 특성을 반영하고 있는 요약변수를 생성하여 분석 대상이 되는 데이터의 차원을 줄이는 작업
데이터 변환 변수값에 대해 정규화, 표준화 등의 작업을 수행하거나 데이터의 형시을 변환하는 등 분석알고리즘에 입력할 수 있는 형태로 데이터를 변환하는 작업
3. 데이터 정제
- 원시 데이터에는 결측치나 노이즈가 포함되어 있는 데이터 오류가 존재
- 컴퓨터가 읽을 수 없는 요소 제거 -> 데이터 품질 해결 작업
1) 결측치
- 입력이 누락되어 값이 존재하지 않고 비어 있는 값 -> 공백
- NA, 99999, (공란), Unknown, Not Answer, NULL, NaN 등으로 표기
- 상당한 편의(bias) 야기 가능성, 분석의 효율성 감소, 분석 결과 왜곡
참고 자료
없음