AI

    t-value와 t-test

    들어가기 전에 통계학에서 추정을 위해서 모집에서 표본을 추출하고, 추출한 표본에서 표본 통계량 (평균, 분산 등)을 구할 수 있다. 이 때 구한 표본 통계량으로 검정 통계량이란 것을 구할 수 있으며 이 통계량을 이용하여 표본에서 모집단을 추론하는 과정을 진행한다. 여기서 검정통계량이란 이 글에서 정리할 t-value를 포함하여, F, z 등을 통칭하는 통계량으로 통계적 가설의 진위여부를 검정하기 위해 계산하는 통계량을 의미한다. 즉 이 통계량을 이용하여 표본을 이용하여 모집단에 대한 가설이 맞는지 여부를 확인하는 과정이다. t-value란? 앞서 검정통계량은 모집단에 대한 가설이 맞는지 여부를 확인하는 과정이라고 했다. t-value의 의미와 어떻게 사용하는지 정리해본다. 연구를 진행하다 보면 모집단에서..

    [Machine Learning] 차원축소 - #1 PCA

    [Machine Learning] 차원축소 - #1 PCA

    차원축소 (Dimension Reduction) 데이터에는 중요한 정보와 중요하지 않은 정보가 함께 혼재되어 있다. 여기서 우리는 중요하지 않은 정보를 노이즈(Noise) 라고도 부른다. 이런 노이즈들은 우리가 데이터에서 유의미한 결과를 분석하기 위한 과정에 방해가 되는 요소이다. 데이터분석, 기계학습분야에서는 이러한 노이즈를 제거하는 것이 매우 중요한 과제 중 하나이다. 데이터 표본의 수와 변수가 매우 많으면 데이터 분석 과정에서 데이터를 파악하는 일이 매우 어렵다. 이러한 문제를 해결하기 위해 제시된 것이 차원 축소이다. 차원축소는 고차원의 데이터를 저차원의 데이터로 변환하는 과정이다. 차원은 간단하게 말해 데이터 분석 측면에서 하나의 차원이 하나의 변수로 이해하면 쉽다. 변수의 수가 늘어나게되면, ..

    정규화는 데이터 분리 전? 후? 언제 해야할까?

    정규화는 데이터 분리 전? 후? 언제 해야할까?

    데이터 분석 / 기계학습 과정 중 개인적으로 가장 중요하게 생각되는 분야 중 하나가 데이터 전처리이다. 데이터를 분석하고, 시각화를 통해 데이터 Feature 간 관계성과 분포 등을 파악한다. 유의미한 Feature를 선택하거나 새로운 Feature를 생성하는 과정 등을 거치는 과정은 매우 필수적이고 중요한 과정이다. 해당 과정을 학습하면서 궁금했던 점이 있었다. 처음 데이터과학을 공부하면서 정규화와 트레이닝,테스트 데이터를 분리하는 과정을 공부하게 되면서 생긴 궁금증. 정규화는 트레이닝, 테스트 데이터셋으로 분리전에 진행을 하는게 좋을까? 아니면 분리 이후에 진행을 하는게 좋은가에 대한 궁금증이다. 정규화를 먼저하는게 좋을까? 트레이닝, 테스트 데이터 분리를 먼저하는게 좋을까? 아니면 데이터 전처리 과..

    [Data Science] 서울시 따릉이 이용정보 데이터

    [Data Science] 서울시 따릉이 이용정보 데이터

    데이터과학에서 python을 도구로 사용할 시 pandas, numpy 등의 라이브러리를 떨어질 수 없는 관계이다. 해당 연습을 위해 DataMinim 님의 데이터를 활용하여 연습하고, 결과를 공유하려 한다. 작업 1유형 — DataManim Question 15 각 비디오는 10분 간격으로 구독자수, 좋아요, 싫어요수, 댓글수가 수집된것으로 알려졌다. 공범 EP1의 비디오정보 데이터중 수집간격이 5분 이하, 20분이상인 데이터 구간( 해당 시점 전, www.datamanim.com 데이터 다운받기 사용하는 데이터는 DataMinim 님이 정제해둔 데이터이다. 아래와 같이 다운로드 한다. import pandas as pd df =pd.read_csv('https://raw.githubuserconten..

    [Data Science] 월드컵 출전선수 골기록 데이터

    [Data Science] 월드컵 출전선수 골기록 데이터

    데이터과학에서 python을 도구로 사용할 시 pandas, numpy 등의 라이브러리를 떨어질 수 없는 관계이다. 해당 연습을 위해 DataMinim 님의 데이터를 활용하여 연습하고, 결과를 공유하려 한다. 작업 1유형 — DataManim Question 15 각 비디오는 10분 간격으로 구독자수, 좋아요, 싫어요수, 댓글수가 수집된것으로 알려졌다. 공범 EP1의 비디오정보 데이터중 수집간격이 5분 이하, 20분이상인 데이터 구간( 해당 시점 전, www.datamanim.com 데이터 다운받기 사용하는 데이터는 DataMinim 님이 정제해둔 데이터이다. 아래와 같이 다운로드 한다. import pandas as pd df= pd.read_csv('https://raw.githubuserconten..

    [Data Science] 유튜브 공범컨텐츠 동영상 데이터 분석하기

    [Data Science] 유튜브 공범컨텐츠 동영상 데이터 분석하기

    데이터과학에서 python을 도구로 사용할 시 pandas, numpy 등의 라이브러리를 떨어질 수 없는 관계이다. 해당 연습을 위해 DataMinim 님의 데이터를 활용하여 연습하고, 결과를 공유하려 한다. 작업 1유형 — DataManim Question 15 각 비디오는 10분 간격으로 구독자수, 좋아요, 싫어요수, 댓글수가 수집된것으로 알려졌다. 공범 EP1의 비디오정보 데이터중 수집간격이 5분 이하, 20분이상인 데이터 구간( 해당 시점 전, www.datamanim.com 데이터 다운받기 사용하는 데이터는 DataMinim 님이 정제해둔 데이터이다. 아래와 같이 다운로드 한다. import pandas as pd channel =pd.read_csv('https://raw.githubuserc..