책소개
수학에 약해도, 용어가 낯설어도
펼쳐보면 누구나 이해할 수 있는 비즈니스 통계책!
『만화로 배우는 통계학』은 통계의 ‘통’자도 모르던 영업사원이 데이터 분석부로 발령받는 이야기로 시작된다. 낯선 통계 용어와 복잡한 수학 공식 때문에 좌절하면서도 주인공은 데이터 분석부 부장의...
Statistics; 통계학, 국가와 상태의 어원에서 출발하는 이 개념은 어떠한 문제 상황이 발생할 때 제대로 분석된 자료를 가지고 대응하기 위해 탄생했다. 여기서 제대로 된 자료라 함은 모든 데이터의 상관관계가 일정한 규칙에 따라 잘 정리된 것을 뜻한다. 과거 크림전쟁이 한창일 때 간호사 나이팅게일은 통계학을 사용하여 상당수의 전사자가 야전병원의 열악한 환경 때문에 더 많이 사망한다는 것을 밝혀냈다.
그리고 그 환경을 개선하기 위한 방안을 마련하여 사망자 수를 줄이는 데 기여하게 된다. 이렇듯 통계학은 단순히 데이터를 분석하는 것을 넘어 문제 상황을 개선하는 데에 그 의의가 있다.
수많은 데이터의 중심을 구분 짓는 대푯값이 있는데, 이 대푯값은 크게 ‘평균값’과 ‘중앙값’으로 분류된다. 이때 평균값은 데이터값을 다 더해 데이터 수로 나눈 값이며, 모든 데이터를 큰 순서대로 나열할 때 가운데에 있는 값을 중앙값이라고 한다. 평균과 중앙이라는 의미가 비슷할 거라고 생각할 수도 있겠으나, 이 둘은 각기 다른 데이터의 중심을 나타낸다. 가령, 월급을 예로 들어 설명해보자면 중앙값은 모든 월급을 일련 했을 때 그 가운데에 위치하는 액수이며, 평균값은 모든 월급을 합하여 근로자의 수대로 나눈 값이기 때문에 당연히 편차가 있다. 그래서 근로자 평균 소득표를 봤을 때 이해가 안 되는 것은 당연한 이치다.
또한, 통계학에서 쓰이는 세 가지 대푯값 중 하나인 ‘최빈값’은 데이터에서 가장 많이 출현하는 값이라는 뜻이다. 물론 데이터 수가 적은 경우에는 최빈값이 존재하지 않을 수도 있다. 하지만 이런 상황에서도 분석을 필요로 하기 때문에 이때 ‘도수분포표’라는 것을 사용한다. 이는 주어진 데이터를 일정한 범위로 나눈 후, 그 범위에 출현하는 데이터의 개수를 조사한 표다. 데이터의 구간을 ‘계급’, 개수를 ‘도수’, 그리고 각 계급의 중앙값은 ‘계급값’으로 정의한다.