정규성 검정 (Normality Test) Start.

BioinformaticsAndMe



1. 정규성 검정 (Normality Test) 이란?

데이터셋의 분포가 정규분포 (Normal Distribution)를 따르는지를 검정하는 것이다.

Statistics의 여러 검정법들이 데이터의 정규분포를 가정하고 (예: t-test) 수행되기 때문에,

데이터 자체의 정규성을 확인하는 검정 과정이 필수적이겠다.

중심극한정리에 의해 표본수(n)가 30이 넘어가면 데이터셋이 정규분포에 가까워진다.

그러나, 경우에 따라 30이 넘어감에도 데이터 특이성에 따라 정규분포를 반드시 따르지 않을 수도 있기에,

Normality Test를 통해 데이터의 정규분포를 확인해보자.


#중심극한정리 (Central Limit Theorem)

-표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규 분포에 가까워진다.

-이때 표본분포의 표본 평균은 모집단의 모평균과 같고, 표본표준편차는 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것과 같다.'



2. 정규성 검정 종류

ㄱ) Shaprio-Wilks test

-표본수(n)가 2000 미만인 데이터셋에 적합한 정규성 검정

ㄴ) Kolmogorove-Smirnov test

-표본수(n)가 2000 초과인 데이터셋에 적합한 정규성 검정

ㄷ) Quantile-Quantile plot (Graphic test)

-데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법

-분석할 데이터 종류가 많지 않다면, QQplot을 통해 시각적으로 확인해보는게 가장 간단하며 직관적이다.



3. 정규성 검정의 H0, H1

-귀무가설(H0) : 데이터셋이 정규분포를 따른다.

-대립가설(H1) : 데이터셋이 정규분포를 따르지 않는다.

-귀무가설을 기각하고 대립가설이 채택된다면 (p<0.01 or 0.05) 해당 데이터셋은 정규분포를 따르지 않는 것이다.



4. 정규성 검정 예제 (R)

-Pima Indian: 9~13세기에 걸쳐 아메리카로 이주해온 몽골리언계

-주식: 식물성. (나무의 순, 잡초, 밀, 콩, 호박 등)

-1960년대 이후 고지방/고칼로리 식습관으로 당뇨환자 증가.


#Pima.tr data (8개의 변수)

npreg: number of pregnancies.

glu: plasma glucose concentration in an oral glucose tolerance test.

bp: diastolic blood pressure (mm Hg).

skin:triceps skin fold thickness (mm).

bmi: body mass index (weight in kg/(height in m)\^2).

ped: diabetes pedigree function.

age: age in years.

type: Yes or No, for diabetic according to WHO criteria.


# Pima.tr 이 들어있는 라이브러리
> library(MASS) 
# Pima.tr$bmi 로 접근하지 않더라도, 바로 bmi로 접근 가능하다. 
> attach(Pima.tr)

> head(Pima.tr)
 npreg glu bp skin  bmi   ped age type
1     5  86 68   28 30.2 0.364  24   No
2     7 195 70   33 25.1 0.163  55  Yes
3     5  77 82   41 35.8 0.156  35   No
4     0 165 76   43 47.9 0.259  26   No
5     0 107 60   25 26.4 0.133  23   No
6     5  97 76   27 35.6 0.378  52  Yes
- type
Yes: 당뇨병을 가진 환자
No: 당뇨병이 없는 환자

#정규성 검정에 들어가기 전에 다시한 위에 가설 검정을 상기하자.
-H0 (귀무가설): 주어진 데이터의 분포는 정규분포를 따른다.
-H1 (대립가설): 주어진 데이터의 분포는 정규분포를 따르지 않는다.

>shapiro.test(bmi)

        Shapiro-Wilk normality test


data:  bmi

W = 0.991, p-value = 0.2523

# p-value를 통해 귀무가설을 기각할 수 없으므로 정규분포를 따른다고 할 수 있다. 

#정규성 검정을 통해 데이터의 정규성 확인


#그러면, QQplot 을 통해, 시각적으로도 확인해보자.

>qqnorm(bmi)

>qqline(bmi) 

위 QQplot 은 데이터의 quantile(분위수)과 특정 이론적 분포의 quantile 각각 구하여 산점도로 나타낸 그림이다.

QQplot 의 점들이 기울기의 직선상에 놓이면 자료가 해당 분포를 잘 따르거나 두 모집단 분포가 같다고 해석할 수 있다.

쉽게말해, 데이터셋의 점들이 라인을 따라서 잘 붙어있으므로 정규성을 따른다고 말할 수 있겠다. 




정규성 검정 (Normality Test) End.

BioinformaticsAndMe



'Statistics' 카테고리의 다른 글

비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10
베이지안 이론 (Bayesian theory)  (1) 2018.08.02

+ Recent posts