AI/Data Science

[데이터 과학] 통계량 (추정량)

Linuxias 2022. 12. 26. 16:51
반응형

 

통계량(또는 추정량, Statistics)는 모집에서도 표본추출로 추출된 표본을 분석하여 얻어지는 결과 값이다. 이러한 통계를 위치, 변이, 모양 통계량으로 나뉠 수 있고 각 통계량은 표현하는 정보가 다를 수 있다. 각 통계량에 대해 정리한다.

수치형 변수에 대해 분포 분석은 대표값과 데이터 흩어짐의 정도를 파악 및 비교하여 각 통계량을 표현한다.

 

위치 통계량

위치 통계량은 데이터가 얼마나 중심적인 경향성을 띄는지 확인하기 쉽다. 

평균(Mean)

산술 평균은대표적인 위치 통계량 정보로 모든 데이터 수치의 합을 총 개수로 나눈 값이다. 모두가 알듯 산술 평균은 계산이 매우 쉽고 수학적으로 활용하기 편리하며, 각 자료에 대해 유일한 값을 띈다. 특히 분석, 모수추정, 가설검증 등에서 대표값으로 많이 사용된다.

하지만 극단적인 값에 대해 매우 민감하며 극단적인 이상치가 있는 경우 대표값의 기능을 상실하게 된다. 예를 들어 미국 노스캐롤라이나 대학의 평균연봉이 가장 높은 학과는 지리학과라고 한다. 그 이유는 마이클 조던이 해당 학과 출신이여서이다. 마이클 조던은 지리학과 무관한 농구선수이며 그의 데이터로 인해 지리학과의 평균 연봉이 가장 높은 학과가 되었다. 이처럼 극단적인 이상 치 (극단값)에 의해 데이터로써 기능을 상실할 수 있다.

그 외에도 사용되는 몇가지 평균은 아래와 같다.

  • 기하평균
    • n 개의 양수 값을 모두 곱한 것의 n 제곱근
    • 성장율의 평균
  • 조화평균
    • 주어진 데이터들의 역수의 산술 평균에 다시 역수를 취한 값
    • 평균적인 변화율을 나타낸다.
  • 가중평균
    • 일률적인 평가가 어려운 경우에 사용된다. 각 데이터가 차지하는 비중이 다른 경우 가중치를 추가로 연산에 포함한다.
    • 수익율 등에서 자주 사용된다.

 

평균 외 정보

평균 외에도 다양한 정보를 통해 분석이 가능하다 이러한 위치 통계량에서 자주 사용하는 정보에 대해 정리해보자.

  • 중앙값 (Median)
    • 데이터를 순차적으로 나열 할 시 가운데 있는 값
    • 데이터가 짝수 개 이면 n/2 번째와 (n+2)/2번째 값의 평균이 중앙값
    • 데이터 중 극단적인 이상치가 있어 평균을 사용하기 어려운 경우 극단값에 덜 민감한 중앙값을 대표값으로 사용할 수 있다.
    •  
  • 최빈값 (Mode)
    • 데이터에서 가장 자주 나타나는 빈도가 가장 높은 데이터
    • 평균과, 중앙값은 항상 존재하지만 최빈값은 존재하지 않을 수도 또는 2개 이상이 존재할 수 도 있다.
    • 평균, 중앙값과 달리 범주형 데이터 (문자형) 에서도 활용이 가능한 정보

중앙값과 최빈값은 자료의 분포가 비대칭을 이루는 경우 평균의 보조자료로 활용이 가능하다. 또한 범주형 데이터인 경우에는 평균, 중앙값 계산이 불가능하기에 최빈값이 대표값으로 활용될 수도 있다.

 

변이 통계량 (분포)

데이터의 분포 특성을 분석할 때 위치통계량(중심경향성)과 함께 고려되는 통계량이 변이 통계량이다. 퍼짐 정도는 아래 통계량을 이용하여 측정, 분석이 가능하다.

  • 범위
    • 자료에서 최대 값과 최소 값과의 차이
  • 중간범위
    • 최대치와 최소치의 합을 2로 나눈 값
  • 평균절대편차
    • 편차는 평균과 모든데이터의 차를 더한 값으로 모든 편차의 합은 0이다. 따라서 데이터 분석으로 용이하지 않기에 절대 편차나 분산을 사용한다.
    • 평균절대편차는 모든 데이터의 편차의 절대값의 평균이다.
  • 분산
    • 데이터가 평균 주위로 얼마나 집중되어 있는지 또는 얼마나 흩어져 있는지를 측정할 수 있는 통계량이다. 분산의 값이 작으면 데이터가 대체로 평균 가까이에 분포하고 있으며 변동이 심하지 ㅇ낳음을 의미한다.
    • 분산은 모든 편차를 제곱하고 이들을 합한 후 자료의 총 수로 나눈 값이다. 제곱이 연산에 포함되기에 원 데이터의 단위가 변경되는 결과가 발생한다. 
  • 표준편차
    • 표준편차는 분산의 제곱근으로 구할 수 있다. 제곱된 분산이 제곱근에 의해 데이터의 단위가 다시 복구된다. 따라서 측정된 평균이나 다른 통계량과 쉽게 비교할 수 있다.

변이통계량은 데이터들이 흩어질 수록 범위, 분산, 표준편차가 커지게 된다. 데이터가 평균 주위로 집중 된다면 범위, 분산, 표준편차는 작아지게 되고, 데이터가 모두 동일한 값이면 범위, 분산, 표준편차는 0이 된다.

데이터의 불교칙성, 변동성, 데이터의 특수성을 알고자 할 때 분산과 표준편차를 많이 사용하게 된다.

 

모양 통계량

  • 왜도 : 자료의 대칭성을 알아보는 측도
    • 통계량이 양수이면 오른꼬리 그래프
    • 통계량이 음수이면 왼꼬리 그래프
  • 첨도 : 정규분포 대비 봉오리의 높이를 알아보는 측도
    • 통계량이 양수이면 정규분포보다 뾰족한 그래프
    • 통계량이 음수이면 정규분포보다 평평한 그래프
반응형