세상에서 가장 쉬운 통계학입문이라는 책을 읽고 기록한다.
통계학은 크게 기술통계와 추리통계로 나눠진다.
- 기술통계는 관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술을 말함
(도수분포표, 히스토그램, 평균값, 표준편차) - 추리통계는 통계학방법과 확률 이론을 섞은 것으로 ”전체를 파악할 수 없을 정도의 큰 대상”이나 ‘아직 일어나지 않은,
미래에 일어날 일’에 관해 추측하는 것을 말함.
표준편차
표준편차라고 하는 것은 데이터가 평균값 주변에 어느정도 넓게 퍼져 있느냐하는 것을 나타내는 통계량
- 표준편차를 알면 한 데이터 세트 중에 있는 어떤 데이터 하나의 수가 갖는 의미를 알 수 있다.
예를 들어 시험 평균이 60점인데 나는 75점을 받았다. 여기서 나는 어느정도 기뻐할것인지에 대해 확인할 수 있는데 만약 표준편차가 15점이라고 한다면 대략 표준편차만큼 높은 점수일것이고 표준편차가 5점이라한다면 평균점수에서 표준편차의 2배이상이나 떨어져 있다는 뜻이다. - 여러 데이터 세트들을 서로 비교해서 나타나는 차이를 알 수 있다.
예를 들어 차은우군이 10번의 모의고사에서 받은 시험성적은 평균 60점이고 표준편차는 10점이다. 같은 시험을 본 조인성군의 평균은 50점이고 표준편차가 30점이라할때 차은우군과 조인성군의 성적은 공부를 잘하는 것이라는 서열적인 평가가 아니라 성질이 다른 것으로 평가 할 수 있다. 평균점수만 보면 차은우군이 공부를 잘하는 학생이라 생각할 수 있지만 일률적으로는 말할 수 없다.
분포
분포가 생기는 이유는 그 수치들이 결정된 이면에 어떤 ‘불확실성’이 움직이고 있기 때문이며 불확실이라는 말로 표현하기는 해도 고유한 특징이나 반복되는 것이 있다. 그 고유한 특징이나 반복되는 것을 분포의 특성이라고 한다. 이러한 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법이 통계이다.
분산
분산은 데이터가 퍼져있는 상태를 평가할 수 있는 통계량