AI/Data Science

[데이터 과학] 베이즈 정리

Linuxias 2022. 12. 26. 23:50
반응형

 

베이즈 정리에 앞서 간단한 확률 이론을 정리하고 시작한다.

 

확률

확률은 어떤 사건이 일어날 수 있는 확실성의 정도를 뜻한다. 확률은 0에서 1 사이의 값을 가지며 모든 사건에 대한 확률의 합은 1이라는 특징을 가진다.

베이즈 정리를 작성하기 전에 몇 가지 용어를 정리하려 한다. 각 용어는 확률에서 기초적인 내용이며 추후 지속적으로 해당 용어를 사용하기에 사전에 정리한다.

확률실험

확률실험은 확률을 구하기 위한 실험 또는 시행이라 부르며 아래 3가지 조건을 만족할 때 확률실험이라 한다.

  • 어떤 실험을 통해 나타나는 결과를 예측할 수 없음.
  • 동일한 조건으로 실험을 반복하여도 임의의 형태로 결과가 나타난다.
  • 동일한 실험을 반복할 수 있다.

표본공간

확률 실험을 할 때 발생 가능한 모든 결과의 집합이다. 주로 대문자 S (Sample space)로 표현한다. 간단하게 동전던지기로 표본공간을 살펴보면 아래와 같다.

S = {앞면, 뒷면} = {H, T}

위에서 동전던지기의 표본공간을 나타낸다. H는 Head, T는 Tail을 의미하며 확률 공부할 때 많이 보았을것이다.

사건

사건은 표본 공간의 각 원소들의 부분집합이다. 각 사건은 주로 알파벳으로 표현한다. 사건 중 근원사건은 어떠한 사건이 표본공간 상의 하나의 원소로 구성된 사건을 의미한다.

이러한 사건들은 연산을 통해 표현이 가능하다.

  • 합사건 (A U B)
    • 어떠한 사건의 발생이 사건 A 또는 사건 B에서 일어나는 사건
    • 즉, 사건 A 또는 사건 B에 속하는 원소들의 부분집합이다. 
  • 곱사건 (A ∩ B)
    • 어떠한 사건의 발생이 사건 A와 사건 B에 동시에 일어나는 사건
    • 즉, 사건 A에도, 사건 B에도 속한 원소들의 부분집합이다.
  • 여사건 (A^C)
    • 사건 A가 발생하지 않을 사건
    • 표본공간에서 사건 A의 원소만 제외한 부분집합이다.
  • 배반사건
    • 상호배타 사건으로, 두 사건이 겹치는 부분이 없는 즉, 동시에 발생하지 않는 사건
    • 곱사건 (교집합)이 공집합인 사건이다.
  • 독립사건
    • 두 사건이 서로의 발생에 영향을 끼치지 않는 사건

 

조건부 확률

조건부 확률은 사건 A가 발생한 상황 하에서 사건 B가 발생할 확률을 의미한다. 즉 표본공간이 전체 S가 아닌 A로 함축됨을 의미한다.

풀어서 얘기해보자, 예를 들어 하나의 큰 주머니 안에 1번 주머니와 2번 주머니가 들어있고, 그 주머니 안에 각각 빨간색 공과 파란색 공이 섞여서 들어있다. 이 때 1 또는 2번 주머니를 고르는 사건이 A이고, 그 안에서 공을 뽑았을 때 빨간색 또는 파란색 공을 뽑을 사건이 B가 된다.

다시 정리하자면, 내가 만약 2번 주머니를 뽑고 거기서 파란색 공을 뽑을 확률이 어떻게 되는가? 여기서 2번 주머니를 뽑는 사건 A가 발생한 상황하에서 파란색 공을 뽑을 사건 B의 확률을 구하는 것이다.

 수식은 위와 같다. 사건 A가 발생했을 때 사건 B가 발생할 확률이다. 해당 식은 A와 B가 동시에 일어날 교집합을 사건 A가 발생할 확률로 나눈다.

조건부 확률에서 유명한 문제로 몬티홀 문제가 있다. 여유가 된다면 한번 읽어보자.

https://terms.naver.com/entry.naver?docId=3569086&cid=58944&categoryId=58970 

 

몬티 홀 문제

몬티는 친구들에게 선의의 장난을 즐기는 마음씨 좋은 부자이다. 어느 날 몬티가 친구를 만나 이렇게 말한다. “친구. 선물 하나 하고 싶은데 그냥 주면 재미가 없으니까 게임을 하지. 저기 문

terms.naver.com

 

베이즈 정리

이제 정말 베이즈정리에 대해 정리해보고자 한다. 

우리가 사건 B의 원인을 제공하는 확률을 P(A)를 사전 확률이라고 한다. 하지만 베이즈 정리는 사전확률이 아닌 사후 확률이다. 사후 확률이란 사건 B가 발생한 이후의 확률 P(A|B)를 의미한다. 베이즈정리는 사후확률이다.

베이즈 정리를 사용하면 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할 수 있다. 데이터의 개수가 부족한 경우 아주 유용하다. 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요없이 어제 분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용하게 활용할 수 있다. 

베이즈 정리는 아래와 같다. 베이즈정리(사후확률)은 사전확률과 조건부 확률을 알면 구할 수 있다.

 

반응형