상대위험도(Relative Risk) vs 오즈비(Odds Ratio) Start

BioinformaticsAndMe








1. 상대위험도(Relative Risk;RR) vs 오즈비(Odds Ratio;OR)


: 상대위험도 및 오즈비는 질병발생과 위험인자의 상호 연관성 연구에서 사용되는 통계학적 개념

: 그러나, 각각은 서로 다른 개념임에도 불구하고, 자료 해석 과정에서 쉽게 혼용됨

*상대위험도 - 두 확률(Probability)의 비율

*오즈비 - 두 오즈(Odds)의 비율





2. 상대위험도(Relative Risk;RR)


: 위험인자에 노출된 암환자의 확률 =  a/(a+b) = R1

: 위험인자에 노출되지 않은 암환자의 확률 =  c/(c+d) = R2

Relative Risk(Risk Ratio) = R1/R2 = 'a/(a+b)' / 'c/(c+d)'

→ 위험인자에 노출된 사람은 암에 걸릴 확률이 2.54배 더 높음


: 상대위험도는 직관적으로 임상적 의미를 이해할 수 있음

: 일반적으로 코호트 연구(Cohort study)에 주로 사용

*코호트 연구는 일반적으로 전향적(Prospective)지만, 후향적(Retrospective) 연구도 가능함





3. 오즈비(Odds Ratio;OR)


: 오즈(Odds)는 어떤 사건이 일어날 가능성으로 P/(1-P)으로 표현됨

*오즈(Odds) = 성공확률/실패확률

: 위험인자에 노출된 사람 중에서 암환자인 오즈값 = a/b = Odds1

: 위험인자에 노출되지 않은 사람 중에서 암환자인 오즈값 =  c/d = Odds2

Odds Ratio(오즈비;교차비;승산비) Odds1/Odds2 = 'a/b' / 'c/d'

→ 위험인자에 노출된 사람은 노출되지 않은 사람에 비해 4.32배 정도로 더 암에 걸리는 경향을 보임


: 오즈비는 샘플링에서 생길 수 있는 Bias를 최소화하여, 통계적 의미를 강화함

: 일반적으로 환자대조군 연구(Case-Control study)에 주로 사용

*환자대조군 연구는 후향적(Retrospective) 연구



4. 상대위험도, 오즈비 계산기


https://www.socscistatistics.com/biostatistics/default2.aspx






#Reference

1) https://www.theanalysisfactor.com/the-difference-between-relative-risk-and-odds-ratios/

2) https://www.researchgate.net/figure/Calculation-of-odds-ratios-OR-and-relative-risk-RR-derived-from-Hels-et-al-2011_fig1_249313828

3) https://snowple.tistory.com/331

4) https://dermabae.tistory.com/185

5) https://www.socscistatistics.com/biostatistics/default2.aspx

6) https://www.mayoclinic.org/diseases-conditions/cancer/multimedia/relative-risk/img-20006446

7) https://www.slideshare.net/tarekksalem1966/odds-ratios-basic-concepts





상대위험도(Relative Risk) vs 오즈비(Odds Ratio) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

중심극한정리 (Central limit theorem)  (1) 2020.01.03
신뢰구간 (Confidence Interval)  (0) 2019.12.17
분위수 (Quantile)  (0) 2019.12.11
이산분포 (Discrete distribution)  (0) 2019.12.04
생존 분석 (Survival analysis)  (1) 2019.11.25

중심극한정리 (Central limit theorem) Start

BioinformaticsAndMe








중심극한정리 (Central limit theorem)


: 중심극한정리는 표본크기(n)가 증가함에 따라, 평균의 표본 분포가 정규 분포에 근사한다는 이론

*정규분포는 종모양의 분포를 보임

: 따라서, 표본크기가 증가할수록 '표본의 평균과 표준편차'가 '모집단의 평균과 표준편차'에 가까워짐

*표본크기가 클수록 모수(Population parameter) 예측이 정확해짐

: 중심극한정리가 성립하기 위해서, 표본크기(Sample size)가 최소 30 이상이여야 함

    




중심극한정리의 중요성


: 중심극한정리는 모집단 분포에 상관없이 표본크기가 증가함에 따라, 표본분포가 점점 정규분포에 수렴한다는 사실을 알려줌

: 따라서, 샘플링되는 표본크기가 증가함에 따라, Sampling error는 점차 감소함

*Sampling error(표준오차;표집오차) - '모집단의 모수'와 '표본의 표본통계량' 사이의 차이










#Reference

1) https://www.simplypsychology.org/central-limit-theorem.html

2) McLeod, S. A. (2019, May 20). What a p-value Tells You About Statistical significance. Simply Psychology.

3) https://www.simplypsychology.org/p-value.html

4) https://www.youtube.com/watch?time_continue=461&v=JNm3M9cqWyc&feature=emb_title






중심극한정리 (Central limit theorem) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

상대위험도(Relative Risk) vs 오즈비(Odds Ratio)  (0) 2020.01.10
신뢰구간 (Confidence Interval)  (0) 2019.12.17
분위수 (Quantile)  (0) 2019.12.11
이산분포 (Discrete distribution)  (0) 2019.12.04
생존 분석 (Survival analysis)  (1) 2019.11.25

신뢰구간 (Confidence Interval) Start

BioinformaticsAndMe








1. 신뢰 구간(Confidence Interval;CI)


: 신뢰구간은 모수가 실제로 포함될 것으로 예측되는 범위 (Lower limit ~ Upper limit)

: 집단 전체를 연구하는 것은 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용됨

→ 따라서, 신뢰 구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법

: 신뢰구간(CI)에 모집단 실제 평균값이 포함될 확률을 'CI의 신뢰수준(Confidence Level)'이라함

→ 일반적으로 95% 신뢰수준이 사용됨

    





2. 신뢰 구간 계산하기


1) 관측개수, 평균, 표준편차 구하기

관측개수:  n = 40

평균:  X = 175

표준편차:  s = 20

*모표준편차를 모르기에, 관측된 샘플의 표준편차를 사용 (n30 이상의 충분한 관측개수)


2) 신뢰 수준에 대한 Z-Score 이용

일반적으로 95% 또는 99%에 해당되는 Z-Score가 사용됨

95%(0.95)의 Z-Score 값 = 1.96


3) 공식을 사용하여, Confidence Interval 계산


따라서, 우리는 모집단의 평균이 168.8cm ~ 181.2cm의 신뢰할수 있는 구간에 있을 것이라 추정

'± 이후의 값은 오차 한계(Margin of error) → 여기서 오차 한계는 6.20'





3. 신뢰 구간 특성


: 신뢰구간(CI)가 좁을수록, 모집단 평균 추정치가 정확해짐

: 일반적으로 관측개수(표본크기;Sample size)가 클수록, 신뢰구간이 좁아짐

→ 따라서, 표본이 클수록 더 정확하게 모집단 평균을 추정할 수 있음





4. 신뢰 구간 계산기 (Confidence Interval Calculator)


https://www.mathsisfun.com/data/confidence-interval-calculator.html








#Reference

1) https://www.simplypsychology.org/confidence-interval.html

2) https://www.mathsisfun.com/data/confidence-interval.html

3) https://ko.wikipedia.org/wiki/%EC%8B%A0%EB%A2%B0_%EA%B5%AC%EA%B0%84

4) https://namu.wiki/w/%ED%86%B5%EA%B3%84%EC%A0%81%20%EC%B6%94%EB%A1%A0

5) https://www.whatissixsigma.net/confidence-level-confidence-interval/

6) https://www.mathsisfun.com/data/confidence-interval-calculator.html






신뢰구간 (Confidence Interval) End

BioinformaticsAndMe

분위수 (Quantile) Start

BioinformaticsAndMe







분위수 (Quantile)


: 자료 크기 순서에 따른 위치값

: 정규분포를 크게 벗어나거나, 산포가 큰 상황에서 분위수가 대푯값으로 사용됨

: 주로 사용되는 분위수는 100분위수(백분위수), 10분위수(십분위수), 4분위수(사분위수)





1. 백분위수 (Percentile)


: 크기 순서로 나열한 자료를 100등분했을 때, x%인 관측값

: x 분위값이란 자료값 중 x%가 그 값 보다 작거나 같게 되는 값

→ 70%에 상응하는 x 분위값 = 70 percentile

→ 50%에 상응하는 x 분위값 = 50 percentile = 중앙값(Median) = Q2

: 아래 예는 키 순서로 정렬했을 때, 본인 키보다 적거나 같은 사람들이 80% 존재하는 상황

→ 따라서, 본인의 위치는 80 percentile





2. 사분위수 (Quartile)


: 크기 순서로 나열한 자료를 4등분하는 관측값

→ Q1 = 1사분위수 = 25 percentile = Lower quartile

→ Q2 = 2사분위수 = 50 percentile = 중앙값(Median)

→ Q3 = 3사분위수 = 75 percentile = Upper quartile

→ Q4 = 4사분위수 = 100 percentile


: 사분위수범위(Interquartile range;IQR) = Q3 - Q1 = 전체 자료의 50%를 포함하는 범위





# 분위수 개념을 간단하게 설명하는 동영상








#Reference

1) http://www.ktword.co.kr/word/abbr_view.php?m_temp1=1937

2) https://www.mathsisfun.com/data/percentiles.html

3) http://my.ilstu.edu/~gjin/hsc204-hed/Module-5-Summary-Measure-2/Module-5-Summary-Measure-26.html

4) https://namu.wiki/w/%ED%86%B5%EA%B3%84%ED%95%99

5) https://namu.wiki/w/%EB%8C%80%ED%91%AF%EA%B0%92?from=%EC%A4%91%EC%95%99%EA%B0%92#s-4

6) https://www.youtube.com/watch?v=IFKQLDmRK0Y






분위수 (Quantile) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

중심극한정리 (Central limit theorem)  (1) 2020.01.03
신뢰구간 (Confidence Interval)  (0) 2019.12.17
이산분포 (Discrete distribution)  (0) 2019.12.04
생존 분석 (Survival analysis)  (1) 2019.11.25
분산 분석 (ANOVA)  (0) 2019.11.04

이산분포 (Discrete distribution) Start

BioinformaticsAndMe







이산 확률 분포 (Discrete probability distribution)


: 이산확률분포(이산분포)란 불연속한 데이터에 기반한 이산확률변수 확률분포

*확률 변수가 취하는 값들이 유한하고 셀 수 있을 때, 이에 대응하는 확률분포

: 이산분포에는 이항/기하/초기하/포아송/음이항 분포들이 존재함


# 이산분포의 대표적인 3개 분포

1) 이항분포(Binomial distribution)

2) 초기하분포(Hypergeometric distribution)

3) 포아송분포(Poisson distribution)






1. 이항분포 (Binomial distribution)


: n번의 독립 베르누이 시행에서 성공 확률이 p일 때의 확률 분포

*베르누이 시행(Bernoulli trial) - 반복된 실험에서 '성공(Binary 1) 또는 실패(Binary 0)'의 두 가지 경우만 나오는 시행

: 이항분포는 n이 커질수록 점점 폭이 좁아지며 정규분포에 가까워짐

*n=1의 이항분포는 베르누이 분포라 불림


#예제) 많은 인구의 5%가 쌍꺼풀 갖고 있고, 무작위로 100명을 선택하는 상황

→ 이 분포는 n=100이고,  p=0.05인 이항분포






2. 초기하분포 (Hypergeometric distribution)


: 비복원추출에서 N개 중에 K를 원하고, n번 추출했을때 원하는 k개가 뽑힐 확률 분포

*각 시행이 비복원 추출이며, 시행 결과가 두 가지인 확률분포

: 초기하분포는 한정된 population에서의 샘플링으로 생겨남


#예제) 초기하분포에 근거한 Fisher's Exact Test를 수행한 영상 (m&m 초콜릿을 예로 쉽게 설명)





3. 포아송분포 (Poisson distribution)


: 일정한 시간/공간 내에서 발생하는 사건 횟수에 따른 확률분포

: 포아송분포의 특징

ㄱ) 주어진 시간에 일어난 사건 횟수는 다른 시간에 일어난 사건 횟수와 독립적임

ㄴ) 매우 짧은 시간 영역에서, 둘 이상의 결과가 일어날 확률은 무시 가능

ㄷ) 매우 짧은 시간 영역에서, 시간의 길이와 사건이 한 번 발생할 확률은 비례함


#예제) 공장 생산 부품 중 불량품 발생이 하루 평균 6개의 포아송분포를 따를 때,
하루 동안 공장에서 생산되는 불량품이 8 개 이상인 확률 구하기
→ 하루 평균 6개인 포아송분포로, 불량품이 8개 이상일 확률은 0.25585









#Reference

1) https://medium.com/analytics-vidhya/probability-distributions-444e7babf2e1

2) https://rfriend.tistory.com/99

3) https://namu.wiki/w/%ED%99%95%EB%A5%A0%20%EB%B6%84%ED%8F%AC

4) http://pel.smuc.ac.kr/phpbb/download/file.php?id=151&sid=e776e487c74deb0ebe100c7ac0256ee1

5) https://terms.naver.com/entry.nhn?docId=3338096&cid=47324&categoryId=47324

6) https://present5.com/ef-507-quantitative-methods-for-economics-and-finance-3/

7) https://towardsdatascience.com/understanding-bernoulli-and-binomial-distributions-a1eef4e0da8f

8) https://ko.wikipedia.org/wiki/%EC%9D%B4%ED%95%AD_%EB%B6%84%ED%8F%AC

9) https://ko.wikipedia.org/wiki/%EC%B4%88%EA%B8%B0%ED%95%98%EB%B6%84%ED%8F%AC

10) http://godrag77.blogspot.com/2011/07/poisson-distribution.html

11) https://www.youtube.com/watch?v=udyAvvaMjfM





이산분포 (Discrete distribution) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

신뢰구간 (Confidence Interval)  (0) 2019.12.17
분위수 (Quantile)  (0) 2019.12.11
생존 분석 (Survival analysis)  (1) 2019.11.25
분산 분석 (ANOVA)  (0) 2019.11.04
Z-검정 (Z-test)  (0) 2019.10.28

생존 분석 (Survival analysis) Start

BioinformaticsAndMe





#생존분석에 대한 R 분석 예제는 아래 포스팅 참조

https://bioinformaticsandme.tistory.com/224




1. 생존 분석


: 생존 분석(Survival analysis)은 '생명체 관찰시작~사망'에 이르는 생존시간을 추정하는 통계적 분석법

*사망을 특정한 사건(Event)으로 볼 때, 생존분석에서 사건은 '사망/퇴원/출산' 등 다양한 지표가 될 수 있음

: 생존 분석을 통해, 시간에 따른 인구집단의 특이 변화를 직관적으로 확인 가능

: Censored data(절단 자료)가 누락되지 않고, 생존 분석에 함께 사용됨 

ㄱ) Censoring(중도절단) - 데이터의 측정값이나 관찰치가 부분적으로만 알려진 상태

 Uncensored data는 정확한 생존기간을 파악할 수 있는 온전한 데이터

ㄴ) Right censoring - 연구 종료 전 기타 이유로 사망하거나(연구종료전 교통사고사망),

       연구가 만료된 경우(임상종료후에도 생존)

ㄷ) Left censoring - 연구 시작 전 위험군에 있었던 특정 시점을 모르는 경우(연구시작전 질환을보유)

     측정한 생존 시간보다 실제 생존 시간이 길어짐





2. Kaplan-Meier 추정방법


: Kaplan-Meier(카플란-마이어) 추정방법은 관찰 시간에 따라 사건이 발생한 시점의 사건 발생률을 계산하는 생존 분석 방법

*미국 통계학자 폴 마이어와 에드워드 카플란에 의해 개발된 생존 함수 추정법

: Kaplan-Meier 분석은 일반적으로 아래와 같은 'Survival plot'으로 제시됨

# 위 점선은 20년에서, 전체 환자 그룹의 36%가 여전히 생존해 있음을 의미


# 위 점선은 20년에서, 여성 그룹의 46% and 남성 그룹의 18%가 여전히 생존해 있음을 의미

# 두 집단 사이의 유의한 차이를 검정하기 위해, 'Log-Rank test(로그순위법)' 또는 'Wilcoxon test(윌콕슨검정)'을 사용





3. 로그순위법 (Log-Rank test)


: 로그순위법(Log-Rank test)는 두 집단의 생존률을 비교하는 비모수적 가설 검정법

1) 두 집단을 합한 전체 집단을 관찰 기간 순으로 배열

2) 사건(Event)이 발생한 구간들에 대해, 집단별로 각 구간의 사망 기대빈도 계산

3) 귀무가설로 두 집단의 위험함수가 동일하다고 설정

4) 두 집단의 생존률 비교





4. 콕스 비례위험모형 (Cox’s proportional hazard model)


: 콕스 비례위험모형(Cox’s proportional hazard model;Cox regression model)은 시간과 사건(Event) 사이의 예측 회귀 모형을 만드는 통계법

*흡연여부/몸무게와 같은 관측치(설명변수)와 사망(사건) 사이의 관계를 정립하기 위해 사용됨

: Kaplan-Meier 분석은 타겟하는 특성 외의 다른 요인들을 통제할 수 없다는 점에서 한계

→Cox 비례위험모형 사용

: Cox 비례위험모형은 다양한 관측치들을 동시에 통제하여, 사건 발생에 미치는 영향을 분석하는 다변량 분석법

: 관측치는 서로 독립적이며, Hazard Ratio(HR;위험비)는 시간에 관계없이 일정하다는 비례위험가정이 필요

*HR>1 - 사망 위험 증가

*HR<1 - 사망 위험 감소







#생존분석에 대한 R 분석 예제는 아래 포스팅 참조

https://bioinformaticsandme.tistory.com/224






#Reference

1) http://www.gums.ac.ir/Upload/Modules/Contents/asset68/Medical%20Statistic%20Made%20Easy.pdf

2) https://www.datacamp.com/community/tutorials/survival-analysis-R#fourth

3) https://ko.wikipedia.org/wiki/%EC%83%9D%EC%A1%B4%EB%B6%84%EC%84%9D

4) https://namu.wiki/w/%EC%83%9D%EC%A1%B4%20%EB%B6%84%EC%84%9D

5) https://www.partek.com/webinar/survival-analysis-with-partek-genomics-suite-software/

6) https://ko.wikipedia.org/wiki/%EC%A4%91%EB%8F%84%EC%A0%88%EB%8B%A8

7) https://ko.wikipedia.org/wiki/%EB%A1%9C%EA%B7%B8%EC%88%9C%EC%9C%84%EB%B2%95

8) https://www.youtube.com/watch?v=czQ3l0QXxnA

9) https://rexsoft.org/?page_id=485

10) http://www.e-urol-sci.com/viewimage.asp?img=UrolSci_2018_29_5_223_240363_t6.jpg





생존 분석 (Survival analysis) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

분위수 (Quantile)  (0) 2019.12.11
이산분포 (Discrete distribution)  (0) 2019.12.04
분산 분석 (ANOVA)  (0) 2019.11.04
Z-검정 (Z-test)  (0) 2019.10.28
경향분석 (Cochran-Armitage Trend test)  (0) 2019.10.22

분산 분석 (ANOVA) Start

BioinformaticsAndMe





1. ANOVA (ANalysis Of VAriance)


: 분산 분석(ANOVA;변량 분석)은 3개 이상 다수의 집단을 비교할 때 사용하는 가설검정 방법

*'집단간분산(variance between groups)/집단내분산(variance within group)' 기반의 F분포를 이용함

: 다수 집단 비교에서 t-test를 여러번 사용하면, 다중검정문제 발생으로 1종 오류가 증가하게 됨

→따라서, 다수 간의 평균 비교에서 ANOVA를 통해 유의한 차이를 검정

(A 그림) - ANOVA 분석 결과, 그룹 사이의 차이가 없음

(B 그림) - ANOVA 분석 결과, 그룹 사이의 유의한 차이가 존재





2. 분산분석 종류


ㄱ) 일원분산분석(One-way ANOVA)

- '독립변인 1개' and '종속변인 1개'일 때, 집단 간의 유의미한 차이 검정

- ex) 한/중/일 국가간 학습기술에 따른 성적비교 (독립변인: 학습기술)


ㄴ) 이원분산분석(Two-way ANOVA)

- '독립변인 2개' and '종속변인 1개'일 때, 집단 간의 유의미한 차이 검정

- ex) 한/중/일 국가간 성별과 운동량에 따른 체중비교 (독립변인: 성별/운동량)


ㄷ) 다원변량분산분석(MANOVA;multiple analysis of variance)

- '독립변인 1개' and '종속변인 2개'일  때, 집단 간의 유의미한 차이 검정 (One-way MANOVA)

- '독립변인 2개' and '종속변인 2개'일  때, 집단 간의 유의미한 차이 검정 (Two-way MANOVA)


ㄹ) 공분산분석(ANCOVA;analysis of covariance)

- 특정한 독립변인을 중점에 두고, 나머지 독립변인은 공변량(Covariates)으로 분석하는 방법





3. 일원분산분석(One-way ANOVA) 예제 


: anorexia 거식증 환자데이터를 기반하여 일원분산분석 수행

→거식증 환자의 몸무게 변화 평균이, 세가지 치료방법(Control/CBT/FT)에 상관없이 동일한지를 검정

# aov 함수 사용

library(MASS) attach(anorexia) Change_dep <- Postwt - Prewt aov_result <- aov(Change_dep ~ Treat) #Change_dep: 종속변수, Treat: 설명변수 summary(aov_result)

Df Sum Sq Mean Sq F value Pr(>F) Treat 2 615 307.32 5.422 0.0065 ** Residuals 69 3911 56.68 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


#p-value가 0.0065로 유의하므로 귀무가설을 기각하고,

#치료방법에 따른 평균이 동일하지 않다고 결론 내림

# boxplot 비교

boxplot(Change_dep ~ Treat, col=rainbow(3))




4. 사후 검정 (Post-Hoc analysis;Follow-up test)


: 분산 분석에서 귀무가설 기각 시 모평균이 모두 같지 않다는 것은 알 수 있으나, 어느 집단 사이의 차이인지는 알 수 없음

→귀무가설 기각 시 구체적인 차이를 파악하기 위해, 사후 검정의 형태인 다중비교(Multiple comparison)가 필요함

→다중비교방법: Tukey검정/Scheff방법/최소유의차검정(LSD)

# TukeyHSD 함수로 사후 검정 수행

TukeyHSD(aov_result)

Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Change_dep ~ Treat) $Treat diff lwr upr p adj Cont-CBT -3.456897 -8.327276 1.413483 0.2124428 FT-CBT 4.257809 -1.250554 9.766173 0.1607461 FT-Cont 7.714706 2.090124 13.339288 0.0045127


#사후 검정 결과 Control-CBT, FT-CBT 간에는 평균 차이가 없으나,

#FT-Control 간에는 평균이 유의하게 차이난다고 결론 내림

# TukeyHSD 사후 검정결과 시각화

plot(TukeyHSD(aov_result))








#Reference

1) https://medium.com/greyatom/inferential-statistics-101-part-9-8bf8302337a2

2) https://namu.wiki/w/%EB%B6%84%EC%82%B0%20%EB%B6%84%EC%84%9D

3) https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0_%EB%B6%84%EC%84%9D

4) https://socialinnovation.tistory.com/m/142

5) https://m.blog.naver.com/PostView.nhn?blogId=khinv&logNo=220741292811&proxyReferer=https%3A%2F%2Fwww.google.com%2F

6) https://www.researchgate.net/figure/Graphical-representation-of-the-rationale-behind-the-analysis-of-variance-ANOVA-A_fig2_329788831

7) https://www.statology.org/understanding-the-differences-between-anova-ancova-manova-and-mancova/

8) https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/anorexia.html




분산 분석 (ANOVA) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

이산분포 (Discrete distribution)  (0) 2019.12.04
생존 분석 (Survival analysis)  (1) 2019.11.25
Z-검정 (Z-test)  (0) 2019.10.28
경향분석 (Cochran-Armitage Trend test)  (0) 2019.10.22
피셔정확검정 (Fisher exact test)  (0) 2019.10.15

Z-검정 (Z-test) Start

BioinformaticsAndMe






Z-검정


: Z-검정은 정규분포를 가정하며, 추출된 표본이 동일 모집단에 속하는지 가설 검증하기 위해 사용

: Z-score는 '모집단 평균' 및 '모집단 표준 편차' 의 매개 변수를 이용해 계산

*Null hypothesis(귀무 가설) - 표본 평균이 모집단 평균과 같음

*Alternate hypothesis(대립 가설) - 표본 평균이 모집단 평균과 같지 않음

: Z 검정 통계량값이 임계값(Critical value)보다 크고 작음에 따라, 가설을 기각 또는 채택하게 됨




Z-검정을 사용할 때?


ㄱ) 표본 크기가 30보다 큼 (30이하라면 T-test 사용)

ㄴ) 데이터가 서로 독립적 (하나의 데이터가 다른 데이터에 영향을 미치지 않고, 관련되지 않음)

ㄷ) 데이터가 정규분포 (그러나, 30보다 큰 대규모 표본에서는 중요하지 않음)

ㄹ) 각각의 데이터는 모집단에서 동일한 확률로 선택되야 함

ㅁ) 비교 검정에서는 샘플크기가 가능한 같아야 함




One-proportion Z-검정 (R 예제)


One-proportion Z-검정은 '실제 측정 비율'이 '예상 이론 비율'과 일치하는지 비교하기 위해 사용

: 예제로, 수컷과 암컷의 비율이 50%로 균등한 쥐 집단에서, 추출된 160마리에서 각각 95마리 수컷과 65마리 암컷의 암발생을 확인함

→ 우리는 암발생이 수컷 쥐에서 더 빈번한지 통계적으로 알고 싶다

# prop.test 함수 사용 (binom.test 함수도 가능)

res <- prop.test(x = 95, n = 160, p = 0.5, correct = FALSE) res

1-sample proportions test without continuity correction data: 95 out of 160, null probability 0.5 X-squared = 5.625, df = 1, p-value = 0.01771 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.5163169 0.6667870 sample estimates: p 0.59375

: 검정 결과 p-value 값이 0.01771으로 유의 수준인 alpha = 0.05보다 작음

따라서, 암발생 쥐의 비율이 모집단 0.5 비율과 유의하게 다르다는 결론을 내림







#Reference

1) https://towardsdatascience.com/statistical-tests-when-to-use-which-704557554740

2) https://influentialpoints.com/Training/the-z_test.htm

3) https://www.statisticshowto.datasciencecentral.com/z-test/

4) https://getcalc.com/statistics-z-test-statistic-calculator.htm

5) http://cfa-studynotes.blogspot.com/2008/11/t-statistic-vs-z-statistic.html

6) http://www.sthda.com/english/wiki/one-proportion-z-test-in-r





Z-검정 (Z-test) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

생존 분석 (Survival analysis)  (1) 2019.11.25
분산 분석 (ANOVA)  (0) 2019.11.04
경향분석 (Cochran-Armitage Trend test)  (0) 2019.10.22
피셔정확검정 (Fisher exact test)  (0) 2019.10.15
1종, 2종 오류 (Type 1, 2 error)  (0) 2019.10.07

경향분석 (Cochran-Armitage Trend test) Start

BioinformaticsAndMe






Cochran–Armitage test for trend (경향분석)


: William Cochran와 Peter Armitage가 고안해낸 명목형 변수의 경향성 분석 방법 

: 순서를 가진 카테고리 2xk 분할표를 가질 때, 둘 사이의 연관관계 여부를 검정하기 위해 사용

: 아래는 약물 복용량(Dose)에 따라 부작용(Adverse) 비율이 증가 혹은 감소하는지 경향분석으로 검정 가능





Cochran-Armitage Trend test R 예제


: 아래 표는 우울증 약 복용량을 'Low/Medium/High'로, 우울증의 치료되는 정도를 'Good/Bad' 분류함

 

Low

Medium 

High 

Good 

12

8

25

Bad

31

9

10

전체

43

17 

35 

비율

0.28 (=12/43)

0.47 (=8/17)

0.71 (=25/35)


: 우울증 약 복용량에 따라 좋아지는 Good의 비율이 증가 혹은 감소하는 검정하기 위해, Cochran-Armitage Trend test 수행

# prop.trend.test 함수 사용 (첫번째 인자에는 Good 숫자들, 두번째 인자에는 전체 숫자들 대입)

# 검정 결과가 p<0.01로 유의하므로 우울증 약 복용량이 늘어날수록, 우울증 치료에 효율적이라 볼 수 있음

prop.trend.test( c(12,8,25), c(43,17,35) )

Chi-squared Test for Trend in Proportions data: c(12, 8, 25) out of c(43, 17, 35) , using scores: 1 2 3 X-squared = 14.622, df = 1, p-value = 0.0001314






Cochran-Armitage Trend test 예외


: 비율의 증가, 감소가 아닌 연관성 자체를 검정하는 경우에는 경향분석 대신 카이제곱 검정을 사용

 

Low

Medium 

High 

Good 

12

18

10

Bad

31

9

15

전체

43

27

25 

비율

0.28 (=12/43)

0.66 (=18/27)

0.40 (=10/25)

# prop.trend.test 함수 사용 (첫번째 인자에는 Good 숫자들, 두번째 인자에는 전체 숫자들 대입)

# 검정 결과가 p>0.01로 유의하지 않으므로 우울증 약 복용량이 늘어날수록, 우울증 치료에 효율적이라 볼 수 없음

prop.trend.test( c(12,18,10), c(43,27,25) )

Chi-squared Test for Trend in Proportions data: c(12, 18, 10) out of c(43, 27, 25) , using scores: 1 2 3 X-squared = 1.9768, df = 1, p-value = 0.159

# chisq.test 함수 사용

# 검정 결과가 p<0.01로 유의하므로 우울증 약 복용량과 치료 정도의 연관성이 보임

Testing_matrix <- matrix( c(12, 31, 18, 9, 10, 15), ncol=3) chisq.test( Testing_matrix )

Pearson's Chi-squared test data: Testing_matrix X-squared = 10.283, df = 2, p-value = 0.005848






#Reference

1) https://en.wikipedia.org/wiki/Cochran%E2%80%93Armitage_test_for_trend

2) https://documentation.sas.com/?docsetId=statug&docsetTarget=statug_freq_examples08.htm%3Flocale&docsetVersion=14.2&locale=ko

3) https://www.vice.com/en_us/article/bjbdg8/how-to-take-ketamine-risks-side-effects-drug-test





경향분석 (Cochran-Armitage Trend test) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

분산 분석 (ANOVA)  (0) 2019.11.04
Z-검정 (Z-test)  (0) 2019.10.28
피셔정확검정 (Fisher exact test)  (0) 2019.10.15
1종, 2종 오류 (Type 1, 2 error)  (0) 2019.10.07
카이제곱검정 (Chi square test)  (0) 2019.10.01

피셔정확검정 (Fisher exact test) Start

BioinformaticsAndMe






피셔정확검정 (Fisher exact test)


: 피셔제곱검정은 범주형 데이터에서 초기하분포 기반의 정확한 p-value를 계산하는 방법

*초기하 분포(Hypergeometric distribution) - 모집단 비복원추출에서, 뽑은 n개 중 추출한 것이 x개인 확률변수 갖는 확률분포


: 샘플 수가 너무 적거나, 카테고리가 너무 많아서 테이블의 도수가 극도로 작아지는 상황에 주로 사용 

*구체적으로 기대빈도가 5 이하의 셀이 20%를 넘는 경우 피셔제곱검정 사용 (해당 조건에 카이제곱검정은 정확도 떨어짐)





피셔정확검정 R 예제


: 피셔정확검정의 예로서 한 바리스타가 '차를 먼저 따르고 우유를 나중에 넣는지, 우유를 먼저 따르고 차를 나중에 넣는지'의 문제

: 어느 것을 먼저 넣은 차인지 감별하는 바리스타의 능력이 통계적으로 유의한지 피셔정확검정 실시

*테스트를 반복할수록 바리스타 미각이 떨어지므로 총 10번의 실험 데이터를 얻음

추측

사실 

Milk first

Tea first

Milk first

 4

Tea first

 2


# 피셔정확검정을 위한 2x2 contingency matrix 생성 TeaTasting_matrix <- matrix( c(4,2,1,3), nrow=2 ) TeaTasting_matrix

[,1] [,2] [1,] 4 1 [2,] 2 3

# 피셔정확검정 함수 사용 fisher.test(TeaTasting_matrix)

Fisher's Exact Test for Count Data data: TeaTasting_matrix p-value = 0.5238 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.218046 390.562917 sample estimates: odds ratio 4.918388

# 피셔정확검정 결과 p-value가 0.5238로 유의하지 않으므로

   이 바리스타는 우유가 먼저인지, 차가 먼저인지 감별하는 능력이 있다고 보기 어려움







#Reference

1) http://work.thaslwanter.at/Stats/html/statsCategorical.html

2) https://litfl.com/fishers-exact-test/

3) https://slideplayer.com/slide/4937227/

4) https://www.scalelive.com/fishers-exact-test.html

5) https://techntalk.tistory.com/entry/%ED%94%BC%EC%85%94%EC%9D%98-%EC%A0%95%ED%99%95%EB%8F%84-%EA%B2%80%EC%A0%95Fishers-Exact-Probability-Test





피셔정확검정 (Fisher exact test) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

Z-검정 (Z-test)  (0) 2019.10.28
경향분석 (Cochran-Armitage Trend test)  (0) 2019.10.22
1종, 2종 오류 (Type 1, 2 error)  (0) 2019.10.07
카이제곱검정 (Chi square test)  (0) 2019.10.01
FDR (False Discovery Rate)  (1) 2019.09.23

+ Recent posts