Developer's Delight

[Python] Sliding Window

2023.08.24

def sliding_window(series, window_size, step = 1): """series is a column of a dataframe""" for start_row in range(0, len(series) - window_size + 1, step): yield series[start_row:start_row + window_size] tmp = np.arange(100) list(sliding_window(tmp, 10, 5)) 위의 코드를 실행하면 0부터 99까지의 데이터를 10개씩 5개씩 이동하면서 데이터를 만들어낸다. 결과는 아래와 같다. [array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([ 5, 6, 7, 8, 9, 10, 11, 12, ..

AI/Data Science

[분석통계] 정규성 검정

2023.05.29

정규성 검정 정규성 검정은 3가지 방법으로 검정을 진행한다. 검정 방법은 시각화 또는 가설 검정을 이용한 방법으로 나뉜다. 가설검정을 이용 시 귀무가설 '$H_{0}$는 모집단의 분포는 정규분포이다' 가 된다. Q-Q Plot 시각화를 이용한 정규성 검정방법 Shapiro-Wilks Test from scipy import stats stats.shapiro(df) Kolmogorov-Smirnov Test (KS-Test) KS-Test 는 누적분포함수를 비교하는 방법이다. 따라서 이론정규분포와 표본의 누적분포함수(cdf)를 비교한다. 아래 코드에서 주의할 점은 kstest 전 데이터를 표준화 전처리가 필수적으로 수행되어야 한다. from scipy import stats data = (df - df...

AI/Data Science

[분석통계] 통계적 검정 방법 간단 정리

2023.05.27

1개의 모집단에 관한 검정 1개의 샘플 내에서의 모집단의 평균에 관한 검정 (One-sampel T-test) scipy.stat.ttest_1sample() 사용 alternative 변수에 greater(우측검정), less(좌측검정), two-sided(양측검정) 입력 from scipy import stats stats.ttest_1sample(data, popmean = mu, alternative = 'two-sided') 1개의 샘플 내에서의 모집단의 비율에 관한 검정 모집단의 데이터가 범주형인 경우 특정 범주의 발생비율이 모수이며 해당 모수를 검정하고자 한다. 비율은 근사적 정규분포를 따르기에 Z-test를 사용한다. from statsmodels.stats.proportion import..

Language/Python

[Python] Poetry - Jupyter

2023.05.26

Poetry는 파이썬 개발 시 의존성 관리와 패키징을 위한 툴이다. pip와 venv를 통해 프로젝트의 가상환경을 자동으로 생성하고 의존성을 관리해줌으로써 개발용이성을 향상시켜준다. 여러 개발자가 동일한 환경에서 개발할 수 있도록 지원을 한다. 따라서 개발자의 머신에서 Global로 설치된 의존성이 아닌 프로젝트에 필요한 버전의 의존성을 동일하게 유지해 준다. 아래 전체적인 흐름을 정리한 그림이다. 위의 흐름에 맞춰서 하나씩 정리해본다. 1. Poetry 설치 poetry를 사용하기 위해 설치가 필요하다. 나는 1.4.2 버전이 설치된 상태이다. $ pip install poetry $ poetry -V Poetry (version 1.4.2) 2. 프로젝트에 poetry 초기화 하기 $poetry in..

AI/MLOps

[MLflow] MLflow Project와 Model의 차이

2023.05.21

MLflow 에서 제공하는 기능 중 Project와 Model의 정확한 차이를 이해하지 못하는 분들이 간혹 있다. 처음 접하게 되면 차이가 어려울 수 있다. Project와 Model 모두 패키징을 제공하는 방법 같은데 왜 나뉘어져 있는지 의문이 들 수 있을 것 이다. 그래서 간략하게 정리해 보려고 한다. MLflow Project는 재사용 가능한 데이터 사이언스 코드의 패키징을 위한 표준 포맷이다. 이해하기 어려운 설명 같다. 좀 더 상세히 설명해 보면, 각 Project는 단순히 코드 또는 Git repository가 있는 디렉토리이며, 디스크립터 파일 또는 단순한 규칙을 사용하여 종속성과 코드 실행방법을 지정한다. 특정 데이터 과학 또는 기계학습 프로젝트와 관련된 코드를 패키징하는 표준화된 방법이다..

AI/Data Science

[ANOVA] 일원 / 이원분산분석 해보기 (상호작용항)

2023.04.20

이 글에서는 이론은 다루지 않습니다. 일원분산분석 (One-way ANOVA) 일원분산분석에서 등분산 검정은 sklearn에 포함된 $bartlett()$을 이용하여 구할 수 있다. $bartlett()$ 함수의 시그니처는 아래와 같다. Signature: bartlett(*samples) Docstring: Perform Bartlett's test for equal variances. Bartlett's test tests the null hypothesis that all input samples are from populations with equal variances. For samples from significantly non-normal populations, Levene's test `l..

전체 글

[Python] Sliding Window

[분석통계] 정규성 검정

[분석통계] 통계적 검정 방법 간단 정리

[Python] Poetry - Jupyter

[MLflow] MLflow Project와 Model의 차이

[ANOVA] 일원 / 이원분산분석 해보기 (상호작용항)

티스토리툴바