AI/Data Science

    [Pandas] 여러 Column 동시에 추가하기 (assign)

    [Pandas] 여러 Column 동시에 추가하기 (assign)

    보통 pandas에서 여러 개의 컬럼을 추가하는 방법으로 다양한 방법이 사용된다. 가장 단순한 방법을 열을 하나씩 선언해주며 추가하는 것이다. import pandas as pd data = [1,2,3,4], [5,6,7,8], [9,10,11,12] df = pd.DataFrame([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) df['Mean'] = df.mean(axis = 1) df['Std'] = df.std(axis = 1) df['Max'] = df.max(axis = 1) df['Min'] = df.min(axis = 1) 위 코드의 수행 결과는 아래와 같다. pandas에서 제공하는 $assign$을 이용하면 좀 더 깔끔하게 정리가 된다. (코드 양이 줄어드는 것은 ..

    가설과 P-Value의 의미

    가설과 P-Value의 의미

    우리는 많은 상황에서 모집단에 관한 정보를 알지 못한다. 만약 모집단에 대한 정보를 안다면 표본을 추출하고 분석하여 모집단을 추론하는 일은 없을 것이다. 가설검정도 모집단을 검정할 목적으로 설정하는 모수에 대한 잠정적인 주장이나 가정을 말한다. 표본을 추출하여 분석하는 과정에서 새로운 사실을 발견했을 때 해당 사실이 모집단에서도 적용되는지를 위해 가설을 세우고 검정하는 절차를 지킨다. 귀무가설과 대립가설 가설을 검정할 때 사용되는 가설은 귀무가설과 대립가설로 2가지 이다. 귀무가설 (Null Hypothesis) 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장으로 과거의 경험, 지식 또는 연구의 결과 등 현재까지 이어져오는 인정된 것을 의미한다. 대립가설 (Alternative Hypothesis) ..

    [Pandas] Apply, Map Practice

    이 예제는 https://www.datamanim.com/dataset/99_pandas/pandasMain.html#apply-map 를 풀이한 예제입니다. Import library import pandas as pd Load Data df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/BankChurnersUp.csv',index_col=0) df.info() Int64Index: 10127 entries, 0 to 10126 Data columns (total 18 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 CLIENTNUM 10..

    [Pandas] Grouping Practice

    이 예제는 https://www.datamanim.com/dataset/99_pandas/pandasMain.html#grouping 을 풀이한 예제입니다. import pandas as pd Load Data df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/AB_NYC_2019.csv') df.head() id name host_id host_name neighbourhood_group neighbourhood latitude longitude room_type price minimum_nights number_of_reviews last_review reviews_per_month calculated_ho..

    t-value와 t-test

    들어가기 전에 통계학에서 추정을 위해서 모집에서 표본을 추출하고, 추출한 표본에서 표본 통계량 (평균, 분산 등)을 구할 수 있다. 이 때 구한 표본 통계량으로 검정 통계량이란 것을 구할 수 있으며 이 통계량을 이용하여 표본에서 모집단을 추론하는 과정을 진행한다. 여기서 검정통계량이란 이 글에서 정리할 t-value를 포함하여, F, z 등을 통칭하는 통계량으로 통계적 가설의 진위여부를 검정하기 위해 계산하는 통계량을 의미한다. 즉 이 통계량을 이용하여 표본을 이용하여 모집단에 대한 가설이 맞는지 여부를 확인하는 과정이다. t-value란? 앞서 검정통계량은 모집단에 대한 가설이 맞는지 여부를 확인하는 과정이라고 했다. t-value의 의미와 어떻게 사용하는지 정리해본다. 연구를 진행하다 보면 모집단에서..

    정규화는 데이터 분리 전? 후? 언제 해야할까?

    정규화는 데이터 분리 전? 후? 언제 해야할까?

    데이터 분석 / 기계학습 과정 중 개인적으로 가장 중요하게 생각되는 분야 중 하나가 데이터 전처리이다. 데이터를 분석하고, 시각화를 통해 데이터 Feature 간 관계성과 분포 등을 파악한다. 유의미한 Feature를 선택하거나 새로운 Feature를 생성하는 과정 등을 거치는 과정은 매우 필수적이고 중요한 과정이다. 해당 과정을 학습하면서 궁금했던 점이 있었다. 처음 데이터과학을 공부하면서 정규화와 트레이닝,테스트 데이터를 분리하는 과정을 공부하게 되면서 생긴 궁금증. 정규화는 트레이닝, 테스트 데이터셋으로 분리전에 진행을 하는게 좋을까? 아니면 분리 이후에 진행을 하는게 좋은가에 대한 궁금증이다. 정규화를 먼저하는게 좋을까? 트레이닝, 테스트 데이터 분리를 먼저하는게 좋을까? 아니면 데이터 전처리 과..