Statistics

FDR (False Discovery Rate)

MeDiscovery 2019. 9. 23. 18:17

FDR (False Discovery Rate) Start

BioinformaticsAndMe






FDR (False Discovery Rate)

: FDR은 다중검정비교에서 'False positives / Total positives'의 비율을 의미함

: 1종 오류 = False positives

: 1종 오류는 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류 (실제 음성인 것을 양성으로 판정)

: Benjamini-Hochberg Procedure은 FDR을 줄이는 방법으로 단순하지만, 직관적이고 강력함

: Bonferroni correction보다 완만한 p-value 감소가 진행되어, 제거되는 True positive가 비율이 낮아짐





FDR 보정 과정 예제

0. Simple example

: FDR 검정의 예로 사용될 데이터는 아래와 같음

: 유전자(발현)는 약물에 영향받지 않는다는 가정

: 10개 유전자 검정 → 다중검정비교



1. Order to p-values from smallest to largest

: p-value의 값을 가장 유의한 순서로 나열함

: 10개 유전자에 대한 p-value 값이 산출됐고, 아래 그림처럼 나열됨

: p-value 0.01은 false positive ← 동일한 분포에서 추출된 데이터 비교이므로 차이가 유의할 수 않음




2. Rank the p-values

: 가장 유의한 수준으로 순위를 매김




3. The largest FDR adjusted p-value and the largest p-value are the same

: 순위의 마지막(10번째)인 p-value는 FDR 보정 후에도 동일한 값을 가짐

: 마지막 순위 p-value = 마지막 순위 adj p-value




4. The next largest adjusted p-value is the smaller of two options

: 바로 옆인 9번째 adjusted p-value는 두 가지 값 중 작은 것을 선택

a - 이전 adjusted p-value 값

b - 현재 p-value X (검정의 총 개수/해당 위치 순위)



: 9번째 위치에서 원래 p-value = 0.81

: 검정의 총 개수 = 10

: 해당 위치 순위 = 9

를 수식에 넣고 계산하면 0.90이 나온다

따라서, 9번째 위치에서 FDR 보정 후, adjusted p-value는 0.90이 된다



: 앞서와 같은 방식으로 첫번째 순위까지 반복하여 p-value 보정


p-value가 0.01으로 유의하다고 생각했던 첫번째 값은

FDR 보정 후 adjusted p-value가 0.1이 됐기 때문에,

더 이상 유의하지 않음


다중검정비교로 생길 수 있는 1종 오류(false positive)를 FDR 보정으로 회피






위 내용은 StatQuest 영상을 참조함






#Reference
1) https://www.youtube.com/watch?v=K8LQSvtjcEo
2) https://en.wikipedia.org/wiki/False_discovery_rate
3) https://www.statisticshowto.datasciencecentral.com/benjamini-hochberg-procedure/
4) https://www.jstor.org/stable/2346101?seq=1#page_scan_tab_contents
5) https://ko.wikipedia.org/wiki/1%EC%A2%85_%EC%98%A4%EB%A5%98%EC%99%80_2%EC%A2%85_%EC%98%A4%EB%A5%98




FDR (False Discovery Rate) End

BioinformaticsAndMe