Linuxias
Developer's Delight
Linuxias
  • Category
    • AI
      • Deep Learning
      • Machine Learning
      • Data Science
      • Framework
      • MLOps
      • Paper-Review
      • Tips
    • Android
      • Kotlin
      • Component
      • Compose
      • Compose UI
      • Material
      • Testing
    • Software Architecture
      • Architecture Pattern
      • Design Pattern
      • Requirement Engineering
    • Linux
      • Compile & Link
      • Command & Tool
      • Container
      • Debugging & Testing
      • Profiling
      • Kernel Analysis
      • Server
      • Shell Script
      • System Programming
    • Language
      • Carbon
      • C,C++
      • C#
      • Java
      • Python
    • ETC
      • Data Struct | Algorithm
      • git
      • Security
    • Book
    • 경제공부
      • 세금
      • 부동산
hELLO · Designed By 정상우.
Linuxias

Developer's Delight

AI/Data Science

연속형 변수 간 독립성 및 동질성 검정 방법

2024. 12. 29. 17:58
반응형

연속형 변수 간 독립성과 동질성을 검정할 때, 사용되는 통계적 기법들을 정리합니다. 각 검정 방법은 데이터의 특성과 상황에 따라 적절히 선택해야 합니다.


1. 연속형 변수 간 독립성 검정

연속형 변수 간 독립성을 검정하기 위해 주로 상관관계 분석 방법을 사용합니다. 주요 방법은 다음과 같습니다.

(1) 피어슨 상관계수 (Pearson Correlation Coefficient)

  • 적합한 경우: 두 연속형 변수가 정규분포를 따르고, 선형 관계를 가정하는 경우.
  • 검정 방법: 상관계수(r)를 계산한 뒤, 귀무가설 $H_0$: "두 변수는 독립이다."를 검정.
  • 코드 예제:
    from scipy.stats import pearsonr
    corr, p_value = pearsonr(x, y)

(2) 스피어만 상관계수 (Spearman Rank Correlation Coefficient)

  • 적합한 경우: 변수 간 선형 관계를 가정하지 않거나, 데이터가 정규성을 따르지 않을 때.
  • 검정 방법: 순위 기반 상관계수(rho)를 계산하고, 귀무가설 $H_0$: "두 변수는 독립이다."를 검정.
  • 코드 예제:
    from scipy.stats import spearmanr
    corr, p_value = spearmanr(x, y)

(3) 켄달 타우 상관계수 (Kendall Tau Correlation)

  • 적합한 경우: 순위 기반 상관 분석으로, 작은 데이터셋에 적합.
  • 검정 방법: 켄달의 tau를 계산하여 두 변수 간 독립성을 평가.
  • 코드 예제:
    from scipy.stats import kendalltau
    tau, p_value = kendalltau(x, y)

(4) 교차상관 분석 (Cross-Correlation Analysis)

  • 적합한 경우: 시계열 데이터에서 두 연속형 변수 간 시점 차이에 따른 상관성을 평가.
  • 검정 방법: 시계열 상관성을 계산하고 시점별 독립성을 평가.
  • 코드 예제:
    import numpy as np
    cross_corr = np.correlate(x, y, mode="full")

2. 연속형 변수 간 동질성 검정

동질성 검정은 두 연속형 변수 집단의 분포가 동일한지 확인하는 데 사용됩니다. 주요 방법은 다음과 같습니다.

(1) t-검정 (t-Test)

  • 적합한 경우: 두 집단의 평균이 동일한지 비교하며, 데이터가 정규분포를 따르고 분산이 동일한 경우.
  • 검정 방법: 귀무가설 $H_0$: "두 집단의 평균은 동일하다."를 검정.
  • 코드 예제:
    from scipy.stats import ttest_ind
    t_stat, p_value = ttest_ind(group1, group2)

(2) 윌콕슨 순위합 검정 (Wilcoxon Rank-Sum Test)

  • 적합한 경우: 데이터가 정규성을 따르지 않거나 비모수적인 경우.
  • 검정 방법: 두 집단의 중위수가 동일한지 평가.
  • 코드 예제:
    from scipy.stats import ranksums
    stat, p_value = ranksums(group1, group2)

(3) 콜모고로프-스미르노프 검정 (Kolmogorov-Smirnov Test)

  • 적합한 경우: 두 집단의 분포가 동일한지 검정.
  • 검정 방법: 귀무가설 $H_0$: "두 집단은 동일한 분포를 가진다."를 검정.
  • 코드 예제:
    from scipy.stats import ks_2samp
    stat, p_value = ks_2samp(group1, group2)

(4) 레빈 검정 (Levene's Test)

  • 적합한 경우: 두 집단의 분산(동질성)이 동일한지 평가.
  • 검정 방법: 귀무가설 $H_0$: "두 집단의 분산은 동일하다."를 검정.
  • 코드 예제:
    from scipy.stats import levene
    stat, p_value = levene(group1, group2)

요약

  • 독립성 검정: 상관관계 분석 (피어슨, 스피어만, 켄달 등)
  • 동질성 검정: t-검정, 콜모고로프-스미르노프 검정, 레빈 검정

데이터의 특성(정규성, 분산의 동질성 등)을 고려하여 적절한 검정 방법을 선택하는 것이 중요합니다.

반응형
저작자표시 비영리 (새창열림)

'AI > Data Science' 카테고리의 다른 글

데이터 스누핑 편향이란?  (0) 2024.06.22
희소행렬을 효율적으로 저장하는 COO, CSR 형식  (0) 2024.03.30
[Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가?  (2) 2023.12.02
[결측치 확인] Missingno 이용하기  (0) 2023.11.30
[분석통계] 정규성 검정  (0) 2023.05.29
    'AI/Data Science' 카테고리의 다른 글
    • 데이터 스누핑 편향이란?
    • 희소행렬을 효율적으로 저장하는 COO, CSR 형식
    • [Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가?
    • [결측치 확인] Missingno 이용하기
    Linuxias
    Linuxias
    I want to be a S/W developer who benefits people.

    티스토리툴바