본문내용
1. 데이터의 이해
1.1. 데이터의 유형
데이터는 정성적 데이터와 정량적 데이터로 구분된다. 정성적 데이터는 언어나 문자로 표현되는 데이터를 의미하며, 저장·검색·분석에 많은 비용이 소모된다. 반면 정량적 데이터는 수치·도형·기호로 표현되어 정형화되어 있어 비용이 적게 든다.
정형 데이터는 관계형 데이터베이스나 CSV 파일과 같이 형식이 정해져 있는 데이터를 말한다. 반정형 데이터는 센서 데이터와 같이 눈으로 봤을 때 무슨 정보인지 모르는 데이터로, 한번의 변환이 필요하다. 비정형 데이터는 소셜 데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터를 의미한다.
암묵지는 메뉴얼화 되어있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않는 지식을 말하며, 형식지는 문서나 매뉴얼화된 지식을 의미한다. DIKW 모델에서 데이터는 가공되기 전의 순수한 수치나 기호, 정보는 데이터에 의미를 부여한 것, 지식은 상호 연결된 정보 패턴에 대한 이해, 지혜는 창의적 아이디어를 의미한다.
이렇듯 데이터는 정성적/정량적, 정형/비정형 등 다양한 유형으로 구분되며, 이들 데이터에 대한 이해와 활용은 오늘날 데이터 기반 의사결정에 필수적이다.
1.2. 데이터베이스의 특징
데이터베이스는 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터의 특징이 있다"
데이터베이스는 첫째, 동일한 내용이 중복되어 있지 않은 통합된 데이터이다" 둘째, 컴퓨터가 접근할 수 있는 저장 매체에 저장된 데이터이다" 셋째, 여러 사용자가 데이터를 공동으로 이용할 수 있는 공용 데이터이다" 넷째, 새로운 데이터의 삽입, 기존 데이터의 삭제 및 갱신이 가능한 변화되는 데이터이다"
이처럼 데이터베이스는 여러 사용자가 공동으로 이용할 수 있는 데이터를 통합하여 저장하고 있으며, 데이터의 계속적인 변화에 대응할 수 있는 특징을 가지고 있다"
1.3. 기업 내부 데이터베이스
기업 내부 데이터베이스는 기업 운영을 위해 필수적으로 구축되어 관리되는 데이터베이스들을 의미한다. 대표적으로 OLTP(On-Line Transaction Processing), OLAP(On-Line Analytical Processing), CRM(Customer Relationships Management), SCM(Supply Chain Management), ERP(Enterprise Resource Planning), BI(Business Intelligence), BA(Business Analytics) 등이 있다.
OLTP는 기업의 데이터베이스를 실시간으로 갱신하는 프로세스이다. 다양한 거래 과정의 연산이 단일 프로세스로 실행되어 데이터를 즉시 업데이트한다. 이를 통해 기업의 업무를 효율적으로 자동화할 수 있다.
OLAP는 다차원의 데이터를 대화식으로 분석하는 기술이다. 의사결정 지원을 위한 보고서 생성, 복잡한 질의 처리, 시각화 기능 등을 제공한다. 주제 중심적이고 시간 변화에 따른 데이터 분석이 가능하다.
CRM은 고객과 관련된 내부 및 외부 데이터를 분석하여 고객 중심의 자원을 극대화하고 효율적인 마케팅에 활용하는 시스템이다. 고객 세분화, 고객 생애 가치 예측 등의 기능을 제공한다.
SCM은 공급망의 단계를 최적화하여 고객의 요구사항을 효과적으로 충족시키는 시스템이다. 주문 관리, 재고 관리, 배송 관리 등을 통합하여 관리한다.
ERP는 기업의 경영자원을 통합적으로 관리하여 경영 효율화를 달성하는 시스템이다. 회계, 인사, 생산, 구매 등 기업의 핵심 기능을 통합 관리한다.
BI는 기업이 보유한 데이터를 체계적으로 정리하고 분석하여 의사결정을 지원하는 도구이다. 보고서 생성, 시각화, 데이터 마이닝 등의 기능을 제공한다.
BA는 데이터 분석을 통해 기업의 성과와 비즈니스 통찰력을 도출하는 방법론이다. 통계 및 수학 기반의 분석 기법을 활용한다.
이와 같이 기업 내부 데이터베이스는 기업 운영의 핵심 기능을 지원하는 다양한 시스템들로 구성된다. 각 시스템은 특화된 목적을 가지고 있지만, 상호 연계되어 기업 경영을 위한 통합적인 정보 기반을 제공한다.""
1.4. DBMS(Data Base Management System)
DBMS(Data Base Management System)는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이다. 관계형 DBMS(RDBMS)는 데이터를 테이블(표)로 정리하여 관리하는 반면, 객체지향 DBMS(OODBMS)는 정보를 객체(이미지나 영상)로 정리하여 관리한다.
DBMS를 통해 데이터베이스 관리자는 데이터의 중복을 제거하고, 데이터의 무결성과 보안성을 유지할 수 있다. 또한 다수의 사용자가 동시에 데이터베이스에 접근하여 데이터를 조회, 추가, 수정, 삭제할 수 있게 한다.
DBMS의 핵심 기능은 데이터 정의, 데이터 조작, 데이터 제어 등이며, SQL(Structured Query Language)은 DBMS에 접근할 수 있는 표준 언어이다.
SQL을 통해 데이터베이스 내 테이블의 데이터를 선택, 삽입, 수정, 삭제할 수 있으며, 집계 함수를 이용하여 데이터를 요약, 분석할 수 있다.
DBMS는 기업 내부 데이터베이스 시스템의 핵심 요소로, OLTP(Online Transaction Processing)와 OLAP(Online Analytical Processing)을 지원하여 기업의 경영 활동을 지원한다.
1.5. SQL(Structured Query Language)
SQL(Structured Query Language)은 데이터베이스에 저장된 데이터를 관리하고 처리하기 위한 표준화된 프로그래밍 언어이다. SQL은 관계형 데이터베이스 관리 시스템(RDBMS)에서 널리 사용되는 언어로, 데이터의 조회, 삽입, 수정, 삭제 등 다양한 데이터 작업을 수행할 수 있다.
SQL은 크게 DML(Data Manipulation Language), DDL(Data Definition Language), DCL(Data Control Language) 등으로 구분된다. DML은 데이터 조작에 주로 사용되며, SELECT, INSERT, UPDATE, DELETE 등의 명령어가 포함된다. DDL은 데이터베이스 객체 생성, 수정, 삭제 등에 사용되며, CREATE, ALTER, DROP 등의 명령어가 있다. DCL은 데이터베이스 사용자의 권한 관리 등에 사용되며, GRANT, REVOKE 등의 명령어가 포함된다.
SQL에서 가장 중요한 명령어는 SELECT문이다. SELECT문을 통해 데이터베이스의 데이터를 조회할 수 있으며, WHERE절을 통해 특정 조건의 데이터를 추출할 수 있다. 또한 GROUP BY, ORDER BY, HAVING 등의 절을 활용하여 데이터를 원하는 형태로 가공할 수 있다.
SQL은 데이터베이스 관리 측면에서 매우 중요한 역할을 한다. 데이터베이스의 구조와 내용을 효과적으로 관리할 수 있으며, 데이터 처리 및 분석을 위한 기반을 제공한다. 특히 대용량 데이터를 효율적으로 관리하고 처리하기 위한 기술로 활용되고 있다. 따라서 데이터 분석 및 비즈니스 인텔리전스 분야에서 SQL은 매우 중요한 도구로 활용되고 있다.
1.6. 빅데이터
빅데이터는 기존의 데이터 시스템이 처리하기 어려운 규모, 다양성, 신속성을 갖춘 새로운 유형의 데이터를 의미한다"" 빅데이터는 IT, 제조, 금융, 유통 등 다양한 산업 분야에서 활용되고 있으며, 대량의 데이터를 신속하게 수집 및 분석하여 새로운 가치를 창출하는 데 기여하고 있다"" 빅데이터를 나타내는 대표적인 개념으로 4V (Volume, Variety, Velocity, Value)가 있다""
Volume은 데이터의 양이 급격히 증가하고 있음을 의미하며, 기존의 데이터베이스로는 처리하기 어려운 규모의 데이터가 생성되고 있다"" Variety는 데이터의 유형이 다양해지고 있음을 나타내며, 정형 데이터뿐만 아니라 비정형 데이터(텍스트, 이미지, 동영상 등)가 급증하고 있다"" Velocity는 데이터가 실시간으로 생성되고 있음을 의미하며, 기존의 배치 처리 방식으로는 데이터를 실시간으로 처리하기 어렵다"" Value는 빅데이터가 기존 데이터 대비 높은 가치를 지니고 있음을 나타낸다""
빅데이터는 기존 데이터 처리 방식의 한계를 극복하고자 등장한 새로운 기술이다"" 과거에는 데이터 수집, 저장, 분석과 같은 작업이 개별적으로 이루어졌으나, 빅데이터 기술의 발전으로 이러한 과정이 통합적으로 이루어질 수 있게 되었다"" 특히 클라우드 컴퓨팅 기술은 빅데이터 분석에 필요한 경제성과 확장성을 제공하여 빅데이터 활용을 더욱 용이하게 하고 있다""
빅데이터는 기존 데이터 활용 방식을 혁신적으로 변화시키고 있다"" 과거에는 표본 조사를 통해 일부 정보만을 수집하고 이를 분석하였으나, 빅데이터 시대에는 전수 조사가 가능해져 보다 정확한 분석이 가능해졌다"" 또한 과거에는 데이터와 분석 결과의 인과관계를 규명하는 것이 중요했으나, 빅데이터 시대에는 상관관계 분석만으로도 의미있는 통찰을 도출할 수 있다""
빅데이터는 다양한 산업 분야에 혁신을 가져오고 있다"" 기업 차원에서는 고객 행동 분석, 마케팅 전략 수립, 생산 공정 최적화 등에 활용되고 있다"" 정부 차원에서는 교통 정체 예방, 정책 수립, 범죄 예방 등에 활용되고 있다"" 개인 차원에서는 맞춤형 서비스 제공, 삶의 질 향상 등에 활용되고 있다""
그러나 빅데이터 활용에는 개인정보 보호, 데이터 윤리, 책임성 등의 문제가 대두되고 있다"" 개인정보 유출 위험성이 증가하고 있으며, 알고리즘의 편향성으로 인한 차별 가능성도 존재한다"" 또한 빅데이터 활용에 대한 법적 규제가 미흡한 실정이다"" 이러한 문제를 해결하기 위해서는 데이터 마스킹, 가명처리 등 개인정보 비식별 기술의 발전과 더불어 정부, 기업, 개인 간 협력이 필요할 것으로 보인다""
1.7. 데이터의 가치
데이터는 21세기 산업을 이끄는 새로운 원유로 불리며, 데이터의 가치가 높아지고 있다. 데이터의 가치는 여러 가지 특성으로 인해 객관적으로 산정하기가 어려운데, 그 이유는 다음과 같다.
첫째, 데이터를 재사용하거나 재조합해 활용하면서 특정 데이터를 언제, 어디서, 누가 활용할지를 알 수 없게 되어 가치 산정이 어렵다. 과거에는 데이터 활용의 대상과 목적이 명확했지만, 빅데이터 시대에는 데이터 사용 ...