T-test 정리

ℹ️ 데이터/데이터 분석

T-test 정리

Jerry_K 2023. 10. 28. 19:37

[T-test]

모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본을 추출한다.

그리고 그 표본으로부터 분산과 표준편차를 추출하고 검정하는 방식이다.

식을 통해 이해해보자면, 평균의 차이 / 표준 오차의 비율(표본 변화량)이라 보면된다.

이렇게 t-value를 얻으면 평균차이의 크기를 알 수 있다.

최종 결과는 p-value로 나타낸다.

그럼 p-value는 어떻게 나타낼까 ?

아까 구한 t 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정한다.

p-value는 양쪽 극단값의 범위를 설정한다. (p-value가 작아질수록 주장에 대한 신뢰도가 올라간다.)

일반적으로 p-value는 0.05(5%)이하면 그 통계를 신뢰 할 수 있다고판단한다.

이를 통해 통계적으로 유의미 차이를 보이는지 확인 할 수 있다.

아래의 예시를 보면 좀 더 이해하기 쉬울것이다.

[예시]

어느 학원에서 새로운 수학 교육 방법을 도입했으며, 이 방법이 수학 성적 향상에 도움이 되는지 확인하고자 한다.

이를 위해 기존 방법과 새로운 방법을 각각 30명의 학생들에게 적용하고, 그들의 수학 시험 점수를 측정했다.

이제 t-검정을 통해 두 방법 간의 평균 점수 차이가 통계적으로 유의미한지 확인해보자.

기존 방법 그룹: n1 = 30, 평균 X1 = 75, 표준편차 s1 = 10
새로운 방법 그룹: n2 = 30, 평균 X2 = 80, 표준편차 s2 = 12

가설 설정:
귀무가설(H0): 두 방법 간의 평균 점수 차이가 없다. (μ1 - μ2 = 0)
대립가설(H1): 새로운 방법이 기존 방법보다 평균 점수가 높다. (μ1 - μ2 > 0)

유의 수준 설정:
유의 수준을 0.05로 설정

t-검정 통계량 계산:
평균 차이: X1 - X2 = 75 - 80 = -5
표준 오차: SE ≈ 2.32
t-value: t = -5 / 2.32 ≈ -2.16

t-value를 구한뒤 이 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정하면된다.

(이거는 t-분포표 보면되는데 일반적으로 프로그래밍으로 뚝딱 구함)

(참고)

일반적으로 t-검정은 30개 이하의 적은 수의 표본에 사용한다 (표본의 수가 많으면 정규분포와 비슷해지기 때문에 t분포 대신 정규분포 사용한다)

곧 다룰 ANOVA(분산 분석)은 t-test랑 거의 똑같은데 집단이 2개냐 그 이상의 차이다.

2개일때는 t-test를 사용하고 2개 이상일때는 ANOVA (Analysis Of Variance) 을 써서 표본의 유효성을 확인한다.

보통 표본집단을 ANOVA분석으로 본다음 t-test를 한다 .

결국 둘 다 집단 간 평균의 차이가 있는가!! 로 보면 될 듯 하다.

'ℹ️ 데이터 > 데이터 분석' 카테고리의 다른 글

[Python] 로또는 운일까 ? (로또 데이터 분석) - 1편. 로또 정보 수집하기 (1)	2024.07.05
파이썬 판다스 (concat / merge) (0)	2024.03.26
파이썬 판다스 (groupby / pivot_table) (1)	2024.03.18
데이터 분석 이상치 처리 (Z-score,IQR) (1)	2023.10.21
파이썬 판다스 (시리즈/데이터프레임/인덱싱/멀티인덱싱) (1)	2023.08.22

현재글T-test 정리

Jerry의 컴퓨터 일기

기억보다는, 기록을 남깁니다.

Today :
Yesterday :

Jerry의 컴퓨터 일기

T-test 정리

'ℹ️ 데이터 > 데이터 분석' 카테고리의 다른 글

'ℹ️ 데이터/데이터 분석'의 다른글

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

T-test 정리

'ℹ️ 데이터 > 데이터 분석' 카테고리의 다른 글

'ℹ️ 데이터/데이터 분석'의 다른글

관련글

티스토리툴바