[필기 합격] ADsP, ADP 필기 정리본 (과목 II, V) - <데이터 분석 전문가 가이드> 정독
- 최초 등록일
- 2022.10.30
- 최종 저작일
- 2022.10
- 10페이지/ MS 워드
- 가격 3,000원
소개글
국가공인 데이터분석전문가 (ADP) 필기 시험 범위 중 ADsP에 포함되지 않는 과목 II, V에 해당하는 정리본입니다.
한국데이터산업진흥원(KDATA)에서 출판한 <데이터 분석 전문가 가이드>를 직접 정독하며 정리했습니다.
시험에서는 이 책의 워딩 그대로 출제되는 경향이 있어, 원문의 의미를 최대한 살렸습니다.
저는 이렇게 공부하여 ADsP 및 ADP 필기 시험에 합격하였습니다.
여러분들의 공부에 조금이나마 도움이 되어드렸으면 좋겠습니다.
모두 화이팅하세요!!
목차
가. 과목 II. 데이터 처리 기술 이해
제1장. 데이터 처리 프로세스
1. ETL (Extraction, Transformation, Load)
2. CDC (Change Data Capture)
3. EAI (Enterprise Application Integration)
4. 데이터 연계 및 통합 기법 요약
5. 대용량 비정형 데이터 정리
제2장. 데이터 처리 기술
1. 분산 데이터 저장 기술
2. 분산 컴퓨팅 기술
3. 클라우드 인프라 기술
나. 과목 V. 데이터 시각화
제1장. 시각화 인사이트 프로세스
1. 시각화 인사이트 프로세스의 의미
2. 탐색 (1단계)
3. 분석 (2단계)
4. 활용 (3단계)
제2장. 시각화 디자인
1. 시각화의 정의
2. 시각화 프로세스
3. 시각화 방법
4. 빅데이터와 시각화 디자인
제3장. 시각화 구현
1. 시각화 구현 개요
2. 분석 도구를 이용한 시각화 구현: R
3. 라이브러리 기반의 시각화 구현: D3.js
본문내용
(1) ETL 개요
데이터 웨어하우스(Data Warehouse, DW), 운영 데이터 스토어(Operation Data Store, ODS), 데이터 마트(Data Mart, DM)의 핵심 요소
목적 : 데이터의 이동과 변환
추출 (Extraction) 데이터 소스로부터 데이터 획득
변형 (Transformation) 데이터 클렌징, 형식 변환, 표준화, 통합 등
적재 (Loading) 변형이 완료된 데이터를 특정 목표 시스템에 적재
ETL 개념도 (p.101 그림)
Step 0 Interface 다양한 이기종 DBMS 등 데이터 소스로부터 데이터를 획득하기 위한 각기 다른 인터페이스
Step 1 Staging ETL 데이터 소스로부터 Transaction Data 획득 작업 수행 → Staging Table에 저장
Step 2 Profiling ETL Staging Table에서 데이터 특성을 식별하고 품질 측정
Step 3 Cleansing ETL 다양한 규칙들로 프로파일링된 데이터 보정
Step 4 Integration ETL 이름, 값, 구조 등 데이터 충돌을 해소하고, 클렌징된 데이터 통합
Step 5 Demoralizing ETL 운영 보고서 생성, DW 또는 DM에 데이터 적재를 위해 데이터 비정규화 수행
(2) ODS 구성
정의와 목적
정의 다양한 데이터 소스들로부터 데이터를 추출, 통합한 DB
목적 주로 실시간 또는 실시간 근접 Transaction 또는 하위 수준의 데이터를 저장하기 위해 설계됨
Layered ODS의 구성 (p.102 그림)
Interface Layer 다양한 데이터 소스로부터 데이터 획득 : OLEDB, ODBC, FTP, Real Time OLAP, 데이터 복제
Staging Layer 데이터 소스로부터 Transaction Data 추출되어 Staging Table에 저장 : Timestamp, Checksum
Profiling Layer 데이터 품질 점검 : 데이터 프로파일링 → 프로파일링 결과 통계처리 → 품질 보고서 생성
참고 자료
없음