통계학은 데이터를 잘 사용하는 방법을 알아내는 학문이다.

T-test검정
두 집단의 평균에 차이가 있는지 분석
독립표본 t검정은 서로 다른 두 집단의 차이를 분석하는 것이고 대응표본 t검정은 서로 대응되는 두 집단의 차이를 분석하는 것
예를들어 독립표본은 광고를 본 그룹과 보지않은 그룹의 차이를 본다면 대응표본은 광고를 보기전과 보고난 후 의 차이가 있는지
정규성을 위배하면 t검정을 할 수 없다.
단일표본 t검정 ttest_1samp(df[’열’], 값?)
대응표본 t검정 ttest_rel(before, after)
독립표본 t검정 ttest_ind(df1, df2)
정규성 검정
데이터셋의 분포가 정규분포를 따르는지 검정
여러 검정법들이 정규분포를 가정하기 때문에 정규성을 확인하는 과정이 필수
shapiro(df)
anderson(df[’열’].values)
비모수 검정
- 맨휘트니
- 윌콕슨 순위합-중위수(독립된)
- 윌콕슨 부호 순위합(관련된)
등분산검정
a = a.score
b = b.score
bartlett(a,b)
fligner(a,b, center=’mean’)
fligner(a,b, center=’median’)
levene(a,b, center=’mean’)
levene(a,b, center=’median’)
카이제곱 검정
두 가지 범주형 또는 명목형 변수가 관련될 가능성 여부를 확인하는데 사용됨
- chi2_contingency (독립성 검정)
- chisquare (적합도 검정)
- fisher_exact ( 빈도수가 5개 이하 셀의 수가 전체 셀의 20%이상일 경우)
분산분석
분산분석은 두 개 이상 다수의 집단을 비교하고자 할때 집단 내의 분산,평균과 평균 차이에 의해 집단 간 분산 비교를 통해
F분포를 이용해 가설검정 함
- 일원분산분석 stats.anova, anova_1m
- 다원분산분석 or 이원분산분석
빅분기 7회 기출
2과목
-회귀(7회 기출)
-분류(6회 기출)
-회귀(5회 기출)
-분류(4회 기출)
3과목
- 다중선형회귀, 로지스틱회귀(7회 기출)
-선형회귀, 카이제곱 독립성(6회 기출)
-t-test, t값, 신뢰구간, 분산분석 (5회 기출)
-카이제곱 독립성, z-test(4회 기출)
-카이제곱검정, 대응표본 t검정(3회 기출)
예상내용
카이제곱 자유도
우도비
fisher
상대위험도