이산분포 (Discrete distribution) Start

BioinformaticsAndMe







이산 확률 분포 (Discrete probability distribution)


: 이산확률분포(이산분포)란 불연속한 데이터에 기반한 이산확률변수 확률분포

*확률 변수가 취하는 값들이 유한하고 셀 수 있을 때, 이에 대응하는 확률분포

: 이산분포에는 이항/기하/초기하/포아송/음이항 분포들이 존재함


# 이산분포의 대표적인 3개 분포

1) 이항분포(Binomial distribution)

2) 초기하분포(Hypergeometric distribution)

3) 포아송분포(Poisson distribution)






1. 이항분포 (Binomial distribution)


: n번의 독립 베르누이 시행에서 성공 확률이 p일 때의 확률 분포

*베르누이 시행(Bernoulli trial) - 반복된 실험에서 '성공(Binary 1) 또는 실패(Binary 0)'의 두 가지 경우만 나오는 시행

: 이항분포는 n이 커질수록 점점 폭이 좁아지며 정규분포에 가까워짐

*n=1의 이항분포는 베르누이 분포라 불림


#예제) 많은 인구의 5%가 쌍꺼풀 갖고 있고, 무작위로 100명을 선택하는 상황

→ 이 분포는 n=100이고,  p=0.05인 이항분포






2. 초기하분포 (Hypergeometric distribution)


: 비복원추출에서 N개 중에 K를 원하고, n번 추출했을때 원하는 k개가 뽑힐 확률 분포

*각 시행이 비복원 추출이며, 시행 결과가 두 가지인 확률분포

: 초기하분포는 한정된 population에서의 샘플링으로 생겨남


#예제) 초기하분포에 근거한 Fisher's Exact Test를 수행한 영상 (m&m 초콜릿을 예로 쉽게 설명)





3. 포아송분포 (Poisson distribution)


: 일정한 시간/공간 내에서 발생하는 사건 횟수에 따른 확률분포

: 포아송분포의 특징

ㄱ) 주어진 시간에 일어난 사건 횟수는 다른 시간에 일어난 사건 횟수와 독립적임

ㄴ) 매우 짧은 시간 영역에서, 둘 이상의 결과가 일어날 확률은 무시 가능

ㄷ) 매우 짧은 시간 영역에서, 시간의 길이와 사건이 한 번 발생할 확률은 비례함


#예제) 공장 생산 부품 중 불량품 발생이 하루 평균 6개의 포아송분포를 따를 때,
하루 동안 공장에서 생산되는 불량품이 8 개 이상인 확률 구하기
→ 하루 평균 6개인 포아송분포로, 불량품이 8개 이상일 확률은 0.25585









#Reference

1) https://medium.com/analytics-vidhya/probability-distributions-444e7babf2e1

2) https://rfriend.tistory.com/99

3) https://namu.wiki/w/%ED%99%95%EB%A5%A0%20%EB%B6%84%ED%8F%AC

4) http://pel.smuc.ac.kr/phpbb/download/file.php?id=151&sid=e776e487c74deb0ebe100c7ac0256ee1

5) https://terms.naver.com/entry.nhn?docId=3338096&cid=47324&categoryId=47324

6) https://present5.com/ef-507-quantitative-methods-for-economics-and-finance-3/

7) https://towardsdatascience.com/understanding-bernoulli-and-binomial-distributions-a1eef4e0da8f

8) https://ko.wikipedia.org/wiki/%EC%9D%B4%ED%95%AD_%EB%B6%84%ED%8F%AC

9) https://ko.wikipedia.org/wiki/%EC%B4%88%EA%B8%B0%ED%95%98%EB%B6%84%ED%8F%AC

10) http://godrag77.blogspot.com/2011/07/poisson-distribution.html

11) https://www.youtube.com/watch?v=udyAvvaMjfM





이산분포 (Discrete distribution) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

신뢰구간 (Confidence Interval)  (0) 2019.12.17
분위수 (Quantile)  (0) 2019.12.11
생존 분석 (Survival analysis)  (1) 2019.11.25
분산 분석 (ANOVA)  (0) 2019.11.04
Z-검정 (Z-test)  (0) 2019.10.28

+ Recent posts