Statistics

베이지안 이론 (Bayesian theory)

MeDiscovery 2018. 8. 2. 12:22

베이지안 이론 (Bayesian theory) Start.

BioinformaticsAndMe







1. 빈도 확률(Frequentist probability) vs 베이지안 확률(Bayesian probability)

-빈도 확률(Frequentist probability)

> '동전의 앞면' 이 나올 확률은 어떻게 구할까? 우선 던져볼 것이다. 10번 던졌을 때 4개가 앞면이면, 앞면이 나올 확률 = 2/5.

100번 던졌을 때 45개가 앞면이면, 앞면이 나올 확률 = 9/20.  이런식으로 시행횟수를 반복하여 빈도수(Frequency)를 측정하게 되면,

우리에게 익숙한 빈도 확률을 계산할 수 있다.

-베이지안 확률(Bayesian probability)

> '화산이 폭발할 확률' 을 빈도 확률로 계산할 수 있을까? 어려울 것이다. 우리가 동전 던지기하듯 화산을 폭발시킬 수 없기에 빈도 확률 방법으로는 신뢰할만한 값을 얻기 어렵다. 세상에는 반복할 수 없는 사건이 무수히 많고, '빈도 확률'의 개념을 그러한 사건에 적용을 할 수 없다. 일어나지 않은 일에 대한 확률을 불확실성(uncertainty)의 개념. 즉, 사건과 관련 있는 어려 확률을 이용해 새롭게 일어날 사건을 추정하는 것이 베이지안 확률이다.






2. 베이지안 확률(Bayesian probability) 정의

-베이즈정리 (Bayes’ theorem)라 불리며, 종속적(의존적) 관계에 놓인 사건들을 기반으로 확률을 구함.

-두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리.

-사전확률 P(A)과 우도확률 P(B|A)를 안다면 사후확률 P(A|B)를 알 수 있음.

-베이지안 확률은 아래 조건부 확률로 나타내며, 정보를 업데이트하면서 사후확률 P(A|B)를 구하는 것이다.



P(A), 사전확률(prior probability) : 결과가 나타나기 전에 결정되어 있는 A(원인)의 확률.
P(B|A), 우도확률(likelihood probability) : A(원인)가 발생하였다는 조건하에서 B(결과)가 발생할 확률.
P(A|B), 사후확률(posterior probability) : B(결과)가 발생하였다는 조건하에서 A(원인)가 발생하였을 확률.




3. 베이지안 확률(Bayesian probability) 계산식

-위의 정의가 나오는 계산식 과정이다.

-P(B) 값은 A와 A 여집합과 P(B) 사이의 교집합 합으로 구할 수 있다.





4. 예제 


Q1) A씨가 Breast cancer 검사결과 양성으로 판정 받았다. A씨가 Breast cancer에 걸린 것으로 나올 확률은 몇 %일까?

(Breast cancer 검사의 정확도=90%) 

(Breast cancer 걸릴 확률=1%) 


A씨는 'Positive response'일 때, Breast Cancer에 걸릴 확률’을 구하는 것.

P(Breast|Positive) = P(Positive|Breast) * P(Breast) / P(Positive)


- P(Positive|Breast) = 0.9,    P(Positive|no Breast) = 0.1

- P(Breast) = 0.01,    P(no Breast) = 0.99

- P(Positive) = Breast일 때 Positive일 확률 + Breast이 아닐 때 Positive일 확률

    = 0.9 * 0.01 + 0.1 * 0.99

    = 0.108


-> P(Breast|Positive) = 0.9 * 0.01 / 0.108 = 0.083


A씨가 Breast cancer 검사에서 Positive일 경우, 실제 Breast cancer일 확률은 약 8.3%다.



Q2) 주어진 조건들을 이용해서 여성일 확률을 계산하자

-왼쪽부터 살펴보면,

여성일 확률이 1/2, 안경을 쓰고 여성일 확률이 1/5, 안경을 쓸 확률이 2/5 이다.

위 정보들을 조합하여 조건부확률에 적용했을 때, 안경을 쓴 사람이 여성일 확률은 1/4 이다.


-오른쪽을 살펴보면,

여성일 확률이 1/2, 머리가 길고 여성일 확률이 4/5, 머리가 길 확률이 2/3 이다.

위 정보들을 조합하여 조건부확률에 적용했을 때, 머리가 긴 사람이 여성일 확률은 3/5 이다.




마무리하며..

베이지안 확률은 머신 러닝 이해에 굉장히 중요하다.

Machine Learning은 데이터셋이 주어졌을 때, 특정 사건 혹은 가설의 확률을 높여줄 수 있는 최적의 모델을 찾는 것을 목적으로 한다.

따라서, 베이지안 모델이 주어진 정보를 업데이트 해나가면서, 최적의 사후확률을 계산하는 방식과 일맥상통한다.

다음 칼럼에서는 기계학습 과정에서 베이지안 이론을 어떤식으로 활용하는지 살펴보겠다.




베이지안 이론 (Bayesian theory) End.

BioinformaticsAndMe