AI/Data Science

[데이터 과학] 0. 들어가기 앞서 (용어 및 기본 정리)

Linuxias 2022. 12. 25. 15:04
반응형

데이터 과학을 학습하며 내용을 정리하기에 앞서 알고있으면 좋은 용어 및 간단한 도표등을 정리한다. 특히 통계와 관련된 내용을 주로 정리하고자 한다.

 

1. 통계학 기본

통계학이란 관심대상에 대하여 관련된 자료를 수집하고 그 자료를 요약, 정리하여 결과를 도출해내는 것이다. 이 때의 결과는 불확실한 사실에 대한 결론일 수 도 있고, 일반적인 자료의 규칙을 찾아내는 과정일 수도 있다.

 

모집단과 표본

  • 모집단 (Population) : 통계적인 관찰의 대상이 되는 집단 전체
  • 표본 (Sample) : 직접적인 조사 대상이 되는 모집단의 일부
  • 표본추출 (Sampling) : 모집단으로부터 표본을 선택하는 행위로 크게 확률적 추출과 비확률적 추출로 나뉜다.
  • 통계량 (Statistics) : 표본을 분석하여 얻어지는 결과 수치
  • 모수 (Parameters) : 모집단을 분석하여 얻어지는 결과 수치, 또는 통계량에서 추론을 통해 얻어지는 결과

표본을 추출할 때 우모집단에 대한 추론을 할 수 있도록 n개로 이루어진 하나의 부분집합을 구한다. 이러한 부분집합을 구하는 방법은 다양한 방법이 있다. 각 방법에 대해서는 뒤에서 정리하고 표본추출 시 데이터가 왜곡될 수 있기에 주의해야 한다는 점만 알고 넘어가자.

 

변수의 타입

데이터 과학자가 관심을 갖는 대상에 관한 특성 중 특별히 관심을 갖는 특성을 요인(Factor)라 한다. 이러한 요인을 구성하고 있는 것을 변수(Variable)이라 한다.

이러한 변수에도 다양한 타입이 존재한다.

범주형 (Categorical data)

범주형은 정성적, 질적 자료로도 불리며 문자형 데이터가 주를 이룬다. 따라서 수학적으로 계산하기 어려우며, 빈도 중심의 분석을 주로 사용한다. 범주형 데이터에는 명목형과 순서형이 포함된다.

  • 명목형(Nominal data) : 숫자로 변경하여도 그 값이 크고 작음을 나타내는 수치적으로 표현되는 것이 아닌 단순히 범주로 표현되는 데이터로 혈액형, 성별 등의 데이터가 포함된다.
  • 순서형 (Ordinal data) : 범주의 순서가 상대적으로 비교 가능하다. 비만, 학점 등과 같이 수치형 자료를 그룹화하여 순서형 자료로 변경이 가능하다.

수치형 (Numerical data)

수치형 데이터는 정략적, 양적 자료로도 불리며 숫자로 이뤄어진 데이터이다. 평균, 분산 등의 수치적인 분석을 주로 사용하며 수치형 데이터로는 이산형과 연속형이 포함된다.

  • 이산형 (Discrete data) : 이산형 데이터는 셀수 있는 형태의 자료이다. 즉 그래프로 표현 시 연속되어지는 그래프가 아니다.
  • 연속형 (continuous data) : 연속형 데이터는 셀 수 없는 데이터로 세부적으로 등간형과 비율형으로 나뉠 수 있다. 

 

2. 자료의 정리 및 표현 

수집한 데이터는 전체적인 특성을 파악하고 정리, 요약하기 위한 다양한 방법이 있으며 파악이 쉽도록 다양한 도표를 이용하여 정보를 표현할 수 있다. 각 방법에 대해 간단히 정리한다. 

자료를 정리하는 방법은 자료의 타입에 따라 나뉠 수 있다. 질적자료와 양적자료는 해석하고 정리하는 방법이 다르다. 

  • 질적자료의 해석 : 도수분포표, 상대도수 막대그래프, 원형그래프 등
  • 양적자료의 해석 : 도수분포표, 히스토그램 등

 

도수분포표

도수분포표는 자료를 한 변수가 가질 수 있는 값들의 계급 또는 범주로 나누고 각 계급에 속하는 측정치의 도수를 나타내는 통계표

히스토그램

표로 되어 있는 도수 분포를 그림으로 시각화 한 것으로 한 개 변수에 대한 몇 가지 데이터 포인트의 빈도 분포를 나타내는 데 사용되는 그래프이다.

분할표

두 개 이상의 변수를 동시에 고려하여 개체의 빈도를 정리한 표로 분할표, 교차표 등으로 표현한다.

상자그림 (Box Plot)

출처 : 위키피디아 (https://en.wikipedia.org/wiki/Box_plot)

상자그림은 일변량 차트와 다변량 차트에서 모두 사용된다. 상자가 하나라면 일변량, 두 개 이상이라면 다변량 차트이다. 상자그림에서 얻을 수 있는 정보는 아래와 같다.

  • 최소값 = Q1(1사분위수) - 1.5 x IQR(Q3-Q1)
  • 최대값 = Q3(3사분위수) + 1.5 x IQR(Q3 - Q1)
  • 이상치 : Box의 최소값, 최대값을 벗어난 데이터
  • 사각형이 크다면 분산이 크다는 의미
  • 중앙값
  • 자료의 범위
  • 사각형의 Q2(중위수) 위치에 따라 분포의 치우침을 알 수 있다.
  • 2개 이상의 박스는 그룹을 의미한다.

 

산점도 (Scatter Plot)

출처 : 위키피디아 (https://ko.wikipedia.org/wiki/%EC%82%B0%EC%A0%90%EB%8F%84)

산점도는 x, y축 모두 수치형 데이터를 표현하는 차트로 다변량 차트에 속한다. 

  • 선형, 비선형인지 관계 확인 가능
  • 이상점 여부
  • 그룹 여부, 그룹의 개수

산점도로 파악이 어려운 것은 인과관계 또는 시간 전후관계는 산점포로 파악이 불가능하다.

반응형