소개글
"[70점 만점] 통계학개론 기말 과제물 통계학과 방송통신대"에 대한 내용입니다.
목차
1. 문제 1. 어느 지역의 11개 서점에서 지난 한달 간 통계학 서적 판매실적이 다음과 같다. [20, 18, 15, 17, 18, 21, 25, 28, 24, 25, 280]
1) 이 경우 어떤 통계량을 대푯값으로 하는 것이 적합한가? 그 이유를 설명하고 대푯값을 구하라.
2) 데이터의 특성을 잘 나타낼 수 있는 그래프를 작성하고 설명하시오.
2. 문제 2. 어느 여론조사 회사에서 지역의회 후보에 대한 호감 인터넷 홈페이지에 게시하여 조사하였다. 이 조사의 한계점이 무엇인지 본인의 견해를 밝히시오.
3. 문제3. 다음 각 사례에 대해 독립 이표본 t 검정과 대응표본 t 검정 중 적절한 방법을 선택하여 답하시오.
4. 문제 4. 다음은 어느 초등학교 학생 10명의 가슴둘레를 인치 단위로 나타낸 것이다. - [ 도시 22, 24, 24, 30, 21, 28, 33, 24, 28, 26 ] - [ 농촌 20, 21, 24, 26, 28, 22, 20, 24, 25, 29 ]
1) 각 지역에 따른 기술통계량을 구하시오.
2) 도시 농촌에 따른 상자그림, 히스토그램을 작성하고 비교하라.
3) 도시 농촌간에 가슴둘레의 유의한 차이가 있는지 검정하라. -
5. 문제 5. 두 그룹간의 타이록신 수준이 차이가 있는지 가설을 세우고 다음 출력결과를 근거로 검정하라. - [ 가벼운 증상 34, 45, 49, 55, 58, 59, 60, 62, 86] - [ 뚜렷한 증상 5, 8, 18, 24, 60, 84, 96]
1) 적합한 검정방법과 귀무가설과 대립가설을 쓰시오.
2) 이 경우 제1종의 오류에 대한 정의를 쓰시오.
3) 가설검정의 검정통계량을 정의하고 검정을 실시하라.
6. 문제 6. 여성들을 SRRS점수에 따라 저(≤54), 중(55-99), 고(≥100)의 세 그룹으로 나누어 이들 그룹에 따라 NK세포활동 수치에 차이가 있는지 알아보고자 한다.
참고 문헌
본문내용
(1) 이 경우 어떤 통계량을 대푯값으로 하는 것이 적합한가? 그 이유를 설명하고 대푯값을
구하라.
- 통계학 서적의 판매 실적에는 다른 서점의 경우 판매권수가 15~25권 사이로 관측이 된 반면, 280권의 경우 이상치로 판단하여야 한다. 이렇게 극단값이 포함된 경우에는 대푯값은 데이터를 대표하는 값으로 자주 사용되는 평균 보다는, 중앙값(median)이 유용하다. 중앙 값은 주어진 데이터에서 중심 위치에 해당하는 값으로, 데이터의 최소 또는 최대 값의 영향을 받지 않는다.
중앙 값을 구하는 식은 <식 1>과 같으며, R의 median()함수를 통해서 <그림 1>과 같이 구할 수 있다.
(2) 데이터의 특성을 잘 나타낼 수 있는 그래프를 작성하고 설명하시오.
- 통계학 서적 판매실적의 경우 이상치가 포함되었음을 표현하기 위한 시각화 방식으로 상자그림(boxplot)을 선택하는 것이 적절하다. 상자그림은 사분위범위(interquantile range)와 다섯수치(five-number summary) 요약에 기반한 시각화 기법이다.
참고 자료
이태림, 이기재, 이긍희, 장영재, 통계학계론 (서울:한국방송통신대출판문화원. 2020)
권세혁(한남대학교 통계학과), 조사 방법 및 표본 추출 방법. (2020. 6. 12)
http://wolfpack.hnu.ac.kr/Book/SURVEY/sampling_survey_wolfpack.pdf