FDR (False Discovery Rate) Start
BioinformaticsAndMe
FDR (False Discovery Rate)
: FDR은 다중검정비교에서 'False positives / Total positives'의 비율을 의미함
: 1종 오류 = False positives
: 1종 오류는 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류 (실제 음성인 것을 양성으로 판정)
: Benjamini-Hochberg Procedure은 FDR을 줄이는 방법으로 단순하지만, 직관적이고 강력함
: Bonferroni correction보다 완만한 p-value 감소가 진행되어, 제거되는 True positive가 비율이 낮아짐
FDR 보정 과정 예제
0. Simple example
: FDR 검정의 예로 사용될 데이터는 아래와 같음
: 유전자(발현)는 약물에 영향받지 않는다는 가정
: 10개 유전자 검정 → 다중검정비교
1. Order to p-values from smallest to largest
: p-value의 값을 가장 유의한 순서로 나열함
: 10개 유전자에 대한 p-value 값이 산출됐고, 아래 그림처럼 나열됨
: p-value 0.01은 false positive ← 동일한 분포에서 추출된 데이터 비교이므로 차이가 유의할 수 않음
2. Rank the p-values
: 가장 유의한 수준으로 순위를 매김
3. The largest FDR adjusted p-value and the largest p-value are the same
: 순위의 마지막(10번째)인 p-value는 FDR 보정 후에도 동일한 값을 가짐
: 마지막 순위 p-value = 마지막 순위 adj p-value
4. The next largest adjusted p-value is the smaller of two options
: 바로 옆인 9번째 adjusted p-value는 두 가지 값 중 작은 것을 선택
a - 이전 adjusted p-value 값
b - 현재 p-value X (검정의 총 개수/해당 위치 순위)
: 9번째 위치에서 원래 p-value = 0.81
: 검정의 총 개수 = 10
: 해당 위치 순위 = 9
를 수식에 넣고 계산하면 0.90이 나온다
따라서, 9번째 위치에서 FDR 보정 후, adjusted p-value는 0.90이 된다
: 앞서와 같은 방식으로 첫번째 순위까지 반복하여 p-value 보정
p-value가 0.01으로 유의하다고 생각했던 첫번째 값은
FDR 보정 후 adjusted p-value가 0.1이 됐기 때문에,
더 이상 유의하지 않음
다중검정비교로 생길 수 있는 1종 오류(false positive)를 FDR 보정으로 회피
위 내용은 StatQuest 영상을 참조함
FDR (False Discovery Rate) End
BioinformaticsAndMe
'Statistics' 카테고리의 다른 글
1종, 2종 오류 (Type 1, 2 error) (0) | 2019.10.07 |
---|---|
카이제곱검정 (Chi square test) (0) | 2019.10.01 |
심슨의 역설 (Simpson's Paradox) (0) | 2019.09.03 |
산포도 (Dispersion) (0) | 2019.09.02 |
비모수 검정 (Non-parametric test) (0) | 2019.05.31 |