Statistics

분산 분석 (ANOVA)

MeDiscovery 2019. 11. 4. 17:20

분산 분석 (ANOVA) Start

BioinformaticsAndMe





1. ANOVA (ANalysis Of VAriance)


: 분산 분석(ANOVA;변량 분석)은 3개 이상 다수의 집단을 비교할 때 사용하는 가설검정 방법

*'집단간분산(variance between groups)/집단내분산(variance within group)' 기반의 F분포를 이용함

: 다수 집단 비교에서 t-test를 여러번 사용하면, 다중검정문제 발생으로 1종 오류가 증가하게 됨

→따라서, 다수 간의 평균 비교에서 ANOVA를 통해 유의한 차이를 검정

(A 그림) - ANOVA 분석 결과, 그룹 사이의 차이가 없음

(B 그림) - ANOVA 분석 결과, 그룹 사이의 유의한 차이가 존재





2. 분산분석 종류


ㄱ) 일원분산분석(One-way ANOVA)

- '독립변인 1개' and '종속변인 1개'일 때, 집단 간의 유의미한 차이 검정

- ex) 한/중/일 국가간 학습기술에 따른 성적비교 (독립변인: 학습기술)


ㄴ) 이원분산분석(Two-way ANOVA)

- '독립변인 2개' and '종속변인 1개'일 때, 집단 간의 유의미한 차이 검정

- ex) 한/중/일 국가간 성별과 운동량에 따른 체중비교 (독립변인: 성별/운동량)


ㄷ) 다원변량분산분석(MANOVA;multiple analysis of variance)

- '독립변인 1개' and '종속변인 2개'일  때, 집단 간의 유의미한 차이 검정 (One-way MANOVA)

- '독립변인 2개' and '종속변인 2개'일  때, 집단 간의 유의미한 차이 검정 (Two-way MANOVA)


ㄹ) 공분산분석(ANCOVA;analysis of covariance)

- 특정한 독립변인을 중점에 두고, 나머지 독립변인은 공변량(Covariates)으로 분석하는 방법





3. 일원분산분석(One-way ANOVA) 예제 


: anorexia 거식증 환자데이터를 기반하여 일원분산분석 수행

→거식증 환자의 몸무게 변화 평균이, 세가지 치료방법(Control/CBT/FT)에 상관없이 동일한지를 검정

# aov 함수 사용

library(MASS) attach(anorexia) Change_dep <- Postwt - Prewt aov_result <- aov(Change_dep ~ Treat) #Change_dep: 종속변수, Treat: 설명변수 summary(aov_result)

Df Sum Sq Mean Sq F value Pr(>F) Treat 2 615 307.32 5.422 0.0065 ** Residuals 69 3911 56.68 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


#p-value가 0.0065로 유의하므로 귀무가설을 기각하고,

#치료방법에 따른 평균이 동일하지 않다고 결론 내림

# boxplot 비교

boxplot(Change_dep ~ Treat, col=rainbow(3))




4. 사후 검정 (Post-Hoc analysis;Follow-up test)


: 분산 분석에서 귀무가설 기각 시 모평균이 모두 같지 않다는 것은 알 수 있으나, 어느 집단 사이의 차이인지는 알 수 없음

→귀무가설 기각 시 구체적인 차이를 파악하기 위해, 사후 검정의 형태인 다중비교(Multiple comparison)가 필요함

→다중비교방법: Tukey검정/Scheff방법/최소유의차검정(LSD)

# TukeyHSD 함수로 사후 검정 수행

TukeyHSD(aov_result)

Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Change_dep ~ Treat) $Treat diff lwr upr p adj Cont-CBT -3.456897 -8.327276 1.413483 0.2124428 FT-CBT 4.257809 -1.250554 9.766173 0.1607461 FT-Cont 7.714706 2.090124 13.339288 0.0045127


#사후 검정 결과 Control-CBT, FT-CBT 간에는 평균 차이가 없으나,

#FT-Control 간에는 평균이 유의하게 차이난다고 결론 내림

# TukeyHSD 사후 검정결과 시각화

plot(TukeyHSD(aov_result))








#Reference

1) https://medium.com/greyatom/inferential-statistics-101-part-9-8bf8302337a2

2) https://namu.wiki/w/%EB%B6%84%EC%82%B0%20%EB%B6%84%EC%84%9D

3) https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0_%EB%B6%84%EC%84%9D

4) https://socialinnovation.tistory.com/m/142

5) https://m.blog.naver.com/PostView.nhn?blogId=khinv&logNo=220741292811&proxyReferer=https%3A%2F%2Fwww.google.com%2F

6) https://www.researchgate.net/figure/Graphical-representation-of-the-rationale-behind-the-analysis-of-variance-ANOVA-A_fig2_329788831

7) https://www.statology.org/understanding-the-differences-between-anova-ancova-manova-and-mancova/

8) https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/anorexia.html




분산 분석 (ANOVA) End

BioinformaticsAndMe