심슨의 역설 (Simpson's Paradox) Start

BioinformaticsAndMe





심슨의 역설 (Simpson Paradox)

영국의 통계학자 에드워드 심슨이 정리한 역설 (심슨가족 관련 x)

각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류

사람들의 직관과 반대되는 역설적인 상황이 발생


아래 예를 살펴보면 이해가 쉬울 듯 하다.


EX) 약물 치료 효과

신장결석 치료에서 심슨의 역설 예를 살펴보자 (C. R. Charig, D. R. Webb, S. R. Payne, O. E. Wickham, March 1986)


#Table1

위 테이블을 보고 어떤 치료 약물이 신장결석에 효과적인가? 라고 물었을 때,

'Treatment B 가 더 효과적이다' 라고 말할 수 있다.

하지만, 이 테이블에 변수(신장결석 크기)를 하나 추가하여 좀 더 상세히 살펴보면,


#Table2

위와 같은 결과 결과를 볼 수 있다.

'Treatment A 가 작은 결석, 큰 결석 모두에서 더 효과적이다' 의 결과를 냈다

(처음 직관적으로 살펴본 결과에 반대되는 역설적인 상황이 발생 = 심슨 파라독스)


여기서 신장결석의 크기는 혼재변수(confounding variable or hidden variable)로서,

Table1에서는 이러한 숨겨진 변수가 누락된 상태이다.

변수가 누락된 상태에서 데이터가 통합되었기 때문에, 원래 결과와 전혀 다른 의미를 도출하는 오류를 범하게 된다.



심슨의 역설 피하는 방법은 연구자가 분석하는 데이터를 전반적으로 이해하고

변수에 영향을 주는 모든 요인들을 고려해야만 한다.

신장결석을 치료하는 연구에서는 예를 들어 '결석의 크기, 환자의 나이, 성별 등'의 인자들을 살펴봐야겠다.




아래는 'EBS 지식프라임'의 심슨 파라독스 관련 영상이다.







#Reference
1) https://www.analyticsindiamag.com/understanding-simpsons-paradox-and-its-impact-on-data-analytics/
2) https://www.mathpark.com/530
3) https://namu.wiki/w/%EC%8B%AC%EC%8A%A8%EC%9D%98%20%EC%97%AD%EC%84%A4
4) https://www.youtube.com/watch?v=7qekbQ8Ra1E




심슨의 역설 (Simpson's Paradox) End

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

카이제곱검정 (Chi square test)  (0) 2019.10.01
FDR (False Discovery Rate)  (1) 2019.09.23
산포도 (Dispersion)  (0) 2019.09.02
비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29

+ Recent posts