들어가기 전에
통계학에서 추정을 위해서 모집에서 표본을 추출하고, 추출한 표본에서 표본 통계량 (평균, 분산 등)을 구할 수 있다. 이 때 구한 표본 통계량으로 검정 통계량이란 것을 구할 수 있으며 이 통계량을 이용하여 표본에서 모집단을 추론하는 과정을 진행한다.
여기서 검정통계량이란 이 글에서 정리할 t-value를 포함하여, F, z 등을 통칭하는 통계량으로 통계적 가설의 진위여부를 검정하기 위해 계산하는 통계량을 의미한다. 즉 이 통계량을 이용하여 표본을 이용하여 모집단에 대한 가설이 맞는지 여부를 확인하는 과정이다.
t-value란?
앞서 검정통계량은 모집단에 대한 가설이 맞는지 여부를 확인하는 과정이라고 했다. t-value의 의미와 어떻게 사용하는지 정리해본다.
연구를 진행하다 보면 모집단에서 특정 표본집단을 추출하고, 2개의 집단으로 나눠 실험을 하는 경우가 있다. 예를 들어 살펴본자.
한 농가에서 양파즙이 특정 질환에 좋은 효과가 있다고 홍보를 하기위해 실제로 효과가 있는지 연구를 진행하였다. 연구에 참여하는 집단은 나이가 유사하고 특정 질환을 보유한 집단으로 모집을 했다. 만약 특정 질환이 없는 실험대상자가 포함되어있다면 결과를 신뢰할 수 없기에 표본들간 차이가 없는 집단이여야 한다.
집단 A는 양파즙을 일정 시간 간격으로 3달간 마시고, 집단 B는 마시지 않는다고 할 때, 3개월 후 집단 A와 집단 B의 특정 질환의 수치 평균의 차이를 구하고자 한다. 이렇게 구한 평균이 차이가 있는지를 비교하고자 할 때 t-value를 검정통계량으로 사용한다.
여기서 주의할 점이 하나 있다. 통계적으로 두 표본 그룹의 평균 차이를 계산하면서 어떤 점을 유의해야 할까?
표본집단은 모집단을 대표하지만, 모집단과 같을 순 없다. 즉 표본집단의 평균이 모집단의 평균과 정확히 일치할 수는 없다. 그 말은 즉, 표본 그룹의 표본통계량들은 모집단과의 오차가 존재하게 되며, 이를 표준오차라 한다.
즉, t-value를 이용하여 각 집단의 평균을 비교하고자 할 때도 이 비교하고자 하는 평균은 모집단과의 오차가 항상 포함되어 있다는 것을 인식해야 한다.
이걸 가장 잘 표현한 것이 '공돌이의 수학정리노트' 의 저자 분이라고 생각한다.
t-value = 두 표본 그룹의 평균 차이 / 두 그룹간 평균 차이에 대한 오차(불확실도)
t-value를 저 의미보다 정확하게 잘 표현한 방법은 없다고 생각한다. 여기에 앞서 설명한 항상 오차가 포함된다는 의미와 그 오차로 인한 차이를 표현하고 있다.
이렇게 구한 t-value를 이용하여 특정 기준이 되는 t-value보다 구한 값이 크다면 표본집의 차이가 있다고 판단할 수 있다. 이러한 과정을 t-test라고 한다.
t-test
t-test (t-검정) 는 두 집단의 평균이 다르다고 볼 수 있는지를 알아보는 검정 방법이다. 모집단에서 표본을 뽑을 때마다 해당 표본의 항상 일정하지 않다.
예를 들어 한 반에 학생이 30명 있다고 하자. 이 때 무작위로 5명을 뽑고, 5명의 키의 평균을 구한다. 이 과정을 여러번 반복했을 때 키의 평균이 항상 일정할 확률이 얼마나 되겠는가?
이런 표본의 평균의 차이를 t-test를 통해 확인할 수 있다.
참고자료
https://angeloyeo.github.io/2020/02/13/Students_t_test.html
'AI > Data Science' 카테고리의 다른 글
[Pandas] Apply, Map Practice (0) | 2023.04.02 |
---|---|
[Pandas] Grouping Practice (0) | 2023.03.28 |
정규화는 데이터 분리 전? 후? 언제 해야할까? (0) | 2023.03.12 |
[Data Science] 서울시 따릉이 이용정보 데이터 (0) | 2023.02.07 |
[Data Science] 월드컵 출전선수 골기록 데이터 (0) | 2023.02.07 |