[T-test]
모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본을 추출한다.
그리고 그 표본으로부터 분산과 표준편차를 추출하고 검정하는 방식이다.
식을 통해 이해해보자면, 평균의 차이 / 표준 오차의 비율(표본 변화량)이라 보면된다.
이렇게 t-value를 얻으면 평균차이의 크기를 알 수 있다.
최종 결과는 p-value로 나타낸다.
그럼 p-value는 어떻게 나타낼까 ?
아까 구한 t 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정한다.
p-value는 양쪽 극단값의 범위를 설정한다. (p-value가 작아질수록 주장에 대한 신뢰도가 올라간다.)
일반적으로 p-value는 0.05(5%)이하면 그 통계를 신뢰 할 수 있다고판단한다.
이를 통해 통계적으로 유의미 차이를 보이는지 확인 할 수 있다.
아래의 예시를 보면 좀 더 이해하기 쉬울것이다.
[예시]
어느 학원에서 새로운 수학 교육 방법을 도입했으며, 이 방법이 수학 성적 향상에 도움이 되는지 확인하고자 한다.
이를 위해 기존 방법과 새로운 방법을 각각 30명의 학생들에게 적용하고, 그들의 수학 시험 점수를 측정했다.
이제 t-검정을 통해 두 방법 간의 평균 점수 차이가 통계적으로 유의미한지 확인해보자.
기존 방법 그룹: n1 = 30, 평균 X1 = 75, 표준편차 s1 = 10
새로운 방법 그룹: n2 = 30, 평균 X2 = 80, 표준편차 s2 = 12
가설 설정:
귀무가설(H0): 두 방법 간의 평균 점수 차이가 없다. (μ1 - μ2 = 0)
대립가설(H1): 새로운 방법이 기존 방법보다 평균 점수가 높다. (μ1 - μ2 > 0)
유의 수준 설정:
유의 수준을 0.05로 설정
t-검정 통계량 계산:
평균 차이: X1 - X2 = 75 - 80 = -5
표준 오차: SE ≈ 2.32
t-value: t = -5 / 2.32 ≈ -2.16
t-value를 구한뒤 이 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정하면된다.
(이거는 t-분포표 보면되는데 일반적으로 프로그래밍으로 뚝딱 구함)
(참고)
일반적으로 t-검정은 30개 이하의 적은 수의 표본에 사용한다 (표본의 수가 많으면 정규분포와 비슷해지기 때문에 t분포 대신 정규분포 사용한다)
곧 다룰 ANOVA(분산 분석)은 t-test랑 거의 똑같은데 집단이 2개냐 그 이상의 차이다.
2개일때는 t-test를 사용하고 2개 이상일때는 ANOVA (Analysis Of Variance) 을 써서 표본의 유효성을 확인한다.
보통 표본집단을 ANOVA분석으로 본다음 t-test를 한다 .
결국 둘 다 집단 간 평균의 차이가 있는가!! 로 보면 될 듯 하다.
'데이터 > 데이터 분석' 카테고리의 다른 글
[Python] 로또는 운일까 ? (로또 데이터 분석) - 1편. 로또 정보 수집하기 (0) | 2024.07.05 |
---|---|
파이썬 판다스 (concat / merge) (0) | 2024.03.26 |
파이썬 판다스 (groupby / pivot_table) (0) | 2024.03.18 |
데이터 분석 이상치 처리 (Z-score,IQR) (1) | 2023.10.21 |
파이썬 판다스 (시리즈/데이터프레임/인덱싱/멀티인덱싱) (0) | 2023.08.22 |