데이터/데이터 분석

T-test 정리

Jerry_K 2023. 10. 28. 19:37

[T-test] 

모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본을 추출한다.

그리고 그 표본으로부터 분산과 표준편차를 추출하고 검정하는 방식이다.

식을 통해 이해해보자면,  평균의 차이 / 표준 오차의 비율(표본 변화량)이라 보면된다.

이렇게 t-value를 얻으면 평균차이의 크기를 알 수 있다.

최종 결과는 p-value로 나타낸다. 

 

그럼  p-value는 어떻게 나타낼까 ? 

아까 구한 t 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정한다.

 

p-value는 양쪽 극단값의 범위를 설정한다. (p-value가 작아질수록 주장에 대한 신뢰도가 올라간다.)

일반적으로 p-value는 0.05(5%)이하면  그 통계를 신뢰 할 수 있다고판단한다. 

이를 통해 통계적으로 유의미 차이를 보이는지 확인 할 수 있다.

 

아래의 예시를 보면 좀 더 이해하기 쉬울것이다. 

 

[예시]

어느 학원에서 새로운 수학 교육 방법을 도입했으며, 이 방법이 수학 성적 향상에 도움이 되는지 확인하고자 한다.

이를 위해 기존 방법과 새로운 방법을 각각 30명의 학생들에게 적용하고, 그들의 수학 시험 점수를 측정했다.

이제 t-검정을 통해 두 방법 간의 평균 점수 차이가 통계적으로 유의미한지 확인해보자.

기존 방법 그룹: n1 = 30, 평균 X1 = 75, 표준편차 s1 = 10
새로운 방법 그룹: n2 = 30, 평균 X2 = 80, 표준편차 s2 = 12

가설 설정:
귀무가설(H0): 두 방법 간의 평균 점수 차이가 없다. (μ1 - μ2 = 0)
대립가설(H1): 새로운 방법이 기존 방법보다 평균 점수가 높다. (μ1 - μ2 > 0)


유의 수준 설정:
유의 수준을 0.05로 설정


t-검정 통계량 계산:
평균 차이: X1 - X2 = 75 - 80 = -5
표준 오차: SE ≈ 2.32 
t-value: t = -5 / 2.32 ≈ -2.16

 

t-value를 구한뒤 이 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정하면된다.

(이거는  t-분포표 보면되는데 일반적으로 프로그래밍으로 뚝딱 구함)

 

(참고)

일반적으로 t-검정은 30개 이하의 적은 수의 표본에 사용한다 (표본의 수가 많으면 정규분포와 비슷해지기 때문에 t분포 대신 정규분포 사용한다)


곧 다룰 ANOVA(분산 분석)은 t-test랑 거의 똑같은데 집단이 2개냐 그 이상의 차이다.

2개일때는 t-test를 사용하고 2개 이상일때는 ANOVA (Analysis Of Variance) 을 써서 표본의 유효성을 확인한다.

보통 표본집단을 ANOVA분석으로 본다음 t-test를 한다 .

 

결국 둘 다 집단 간 평균의 차이가 있는가!! 로 보면 될 듯 하다.