AI/Data Science
[분석통계] 통계적 검정 방법 간단 정리
1개의 모집단에 관한 검정 1개의 샘플 내에서의 모집단의 평균에 관한 검정 (One-sampel T-test) scipy.stat.ttest_1sample() 사용 alternative 변수에 greater(우측검정), less(좌측검정), two-sided(양측검정) 입력 from scipy import stats stats.ttest_1sample(data, popmean = mu, alternative = 'two-sided') 1개의 샘플 내에서의 모집단의 비율에 관한 검정 모집단의 데이터가 범주형인 경우 특정 범주의 발생비율이 모수이며 해당 모수를 검정하고자 한다. 비율은 근사적 정규분포를 따르기에 Z-test를 사용한다. from statsmodels.stats.proportion import..
[ANOVA] 일원 / 이원분산분석 해보기 (상호작용항)
이 글에서는 이론은 다루지 않습니다. 일원분산분석 (One-way ANOVA) 일원분산분석에서 등분산 검정은 sklearn에 포함된 $bartlett()$을 이용하여 구할 수 있다. $bartlett()$ 함수의 시그니처는 아래와 같다. Signature: bartlett(*samples) Docstring: Perform Bartlett's test for equal variances. Bartlett's test tests the null hypothesis that all input samples are from populations with equal variances. For samples from significantly non-normal populations, Levene's test `l..
[Pandas] 여러 Column 동시에 추가하기 (assign)
보통 pandas에서 여러 개의 컬럼을 추가하는 방법으로 다양한 방법이 사용된다. 가장 단순한 방법을 열을 하나씩 선언해주며 추가하는 것이다. import pandas as pd data = [1,2,3,4], [5,6,7,8], [9,10,11,12] df = pd.DataFrame([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) df['Mean'] = df.mean(axis = 1) df['Std'] = df.std(axis = 1) df['Max'] = df.max(axis = 1) df['Min'] = df.min(axis = 1) 위 코드의 수행 결과는 아래와 같다. pandas에서 제공하는 $assign$을 이용하면 좀 더 깔끔하게 정리가 된다. (코드 양이 줄어드는 것은 ..
가설과 P-Value의 의미
우리는 많은 상황에서 모집단에 관한 정보를 알지 못한다. 만약 모집단에 대한 정보를 안다면 표본을 추출하고 분석하여 모집단을 추론하는 일은 없을 것이다. 가설검정도 모집단을 검정할 목적으로 설정하는 모수에 대한 잠정적인 주장이나 가정을 말한다. 표본을 추출하여 분석하는 과정에서 새로운 사실을 발견했을 때 해당 사실이 모집단에서도 적용되는지를 위해 가설을 세우고 검정하는 절차를 지킨다. 귀무가설과 대립가설 가설을 검정할 때 사용되는 가설은 귀무가설과 대립가설로 2가지 이다. 귀무가설 (Null Hypothesis) 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장으로 과거의 경험, 지식 또는 연구의 결과 등 현재까지 이어져오는 인정된 것을 의미한다. 대립가설 (Alternative Hypothesis) ..
[Pandas] Apply, Map Practice
이 예제는 https://www.datamanim.com/dataset/99_pandas/pandasMain.html#apply-map 를 풀이한 예제입니다. Import library import pandas as pd Load Data df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/BankChurnersUp.csv',index_col=0) df.info() Int64Index: 10127 entries, 0 to 10126 Data columns (total 18 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 CLIENTNUM 10..
[Pandas] Grouping Practice
이 예제는 https://www.datamanim.com/dataset/99_pandas/pandasMain.html#grouping 을 풀이한 예제입니다. import pandas as pd Load Data df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/AB_NYC_2019.csv') df.head() id name host_id host_name neighbourhood_group neighbourhood latitude longitude room_type price minimum_nights number_of_reviews last_review reviews_per_month calculated_ho..