반응형
연속형 변수 간 독립성과 동질성을 검정할 때, 사용되는 통계적 기법들을 정리합니다. 각 검정 방법은 데이터의 특성과 상황에 따라 적절히 선택해야 합니다.
1. 연속형 변수 간 독립성 검정
연속형 변수 간 독립성을 검정하기 위해 주로 상관관계 분석 방법을 사용합니다. 주요 방법은 다음과 같습니다.
(1) 피어슨 상관계수 (Pearson Correlation Coefficient)
- 적합한 경우: 두 연속형 변수가 정규분포를 따르고, 선형 관계를 가정하는 경우.
- 검정 방법: 상관계수(r)를 계산한 뒤, 귀무가설 $H_0$: "두 변수는 독립이다."를 검정.
- 코드 예제:
from scipy.stats import pearsonr corr, p_value = pearsonr(x, y)
(2) 스피어만 상관계수 (Spearman Rank Correlation Coefficient)
- 적합한 경우: 변수 간 선형 관계를 가정하지 않거나, 데이터가 정규성을 따르지 않을 때.
- 검정 방법: 순위 기반 상관계수(rho)를 계산하고, 귀무가설 $H_0$: "두 변수는 독립이다."를 검정.
- 코드 예제:
from scipy.stats import spearmanr corr, p_value = spearmanr(x, y)
(3) 켄달 타우 상관계수 (Kendall Tau Correlation)
- 적합한 경우: 순위 기반 상관 분석으로, 작은 데이터셋에 적합.
- 검정 방법: 켄달의 tau를 계산하여 두 변수 간 독립성을 평가.
- 코드 예제:
from scipy.stats import kendalltau tau, p_value = kendalltau(x, y)
(4) 교차상관 분석 (Cross-Correlation Analysis)
- 적합한 경우: 시계열 데이터에서 두 연속형 변수 간 시점 차이에 따른 상관성을 평가.
- 검정 방법: 시계열 상관성을 계산하고 시점별 독립성을 평가.
- 코드 예제:
import numpy as np cross_corr = np.correlate(x, y, mode="full")
2. 연속형 변수 간 동질성 검정
동질성 검정은 두 연속형 변수 집단의 분포가 동일한지 확인하는 데 사용됩니다. 주요 방법은 다음과 같습니다.
(1) t-검정 (t-Test)
- 적합한 경우: 두 집단의 평균이 동일한지 비교하며, 데이터가 정규분포를 따르고 분산이 동일한 경우.
- 검정 방법: 귀무가설 $H_0$: "두 집단의 평균은 동일하다."를 검정.
- 코드 예제:
from scipy.stats import ttest_ind t_stat, p_value = ttest_ind(group1, group2)
(2) 윌콕슨 순위합 검정 (Wilcoxon Rank-Sum Test)
- 적합한 경우: 데이터가 정규성을 따르지 않거나 비모수적인 경우.
- 검정 방법: 두 집단의 중위수가 동일한지 평가.
- 코드 예제:
from scipy.stats import ranksums stat, p_value = ranksums(group1, group2)
(3) 콜모고로프-스미르노프 검정 (Kolmogorov-Smirnov Test)
- 적합한 경우: 두 집단의 분포가 동일한지 검정.
- 검정 방법: 귀무가설 $H_0$: "두 집단은 동일한 분포를 가진다."를 검정.
- 코드 예제:
from scipy.stats import ks_2samp stat, p_value = ks_2samp(group1, group2)
(4) 레빈 검정 (Levene's Test)
- 적합한 경우: 두 집단의 분산(동질성)이 동일한지 평가.
- 검정 방법: 귀무가설 $H_0$: "두 집단의 분산은 동일하다."를 검정.
- 코드 예제:
from scipy.stats import levene stat, p_value = levene(group1, group2)
요약
- 독립성 검정: 상관관계 분석 (피어슨, 스피어만, 켄달 등)
- 동질성 검정: t-검정, 콜모고로프-스미르노프 검정, 레빈 검정
데이터의 특성(정규성, 분산의 동질성 등)을 고려하여 적절한 검정 방법을 선택하는 것이 중요합니다.
반응형
'AI > Data Science' 카테고리의 다른 글
데이터 스누핑 편향이란? (0) | 2024.06.22 |
---|---|
희소행렬을 효율적으로 저장하는 COO, CSR 형식 (0) | 2024.03.30 |
[Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가? (2) | 2023.12.02 |
[결측치 확인] Missingno 이용하기 (0) | 2023.11.30 |
[분석통계] 정규성 검정 (0) | 2023.05.29 |