카이제곱검정 (Chi square test) Start

BioinformaticsAndMe






카이제곱검정 (Chi square test)

: χ² 검정은 카이제곱 분포에 기초한 통계적 방법

: 관찰된 빈도가 기대되는 빈도와 유의하게 다른지를 검증

범주형 자료로 구성된 데이터 분석에 이용

카이제곱 값 χ² = Σ(관측값 - 기댓값)² / 기댓값




1. What is a Chi Square Test?

: 카이제곱검정에는 두 가지 형태가 있으며, 같은 카이제곱 통계량과 분포를 사용하지만 다른 목적을 가짐

ㄱ) Goodness of fit test (적합도 검정)

-관찰된 비율 값이 기대값과 같은지 조사하는 검정 (어떤 모집단의 표본이 그 모집단을 대표는지 검정)

ㄴ) Test of homogeneity (동질성 검정)

-두 집단의 분포가 동일한지 검정

ㄷ) Test for independence (독립성 검정)

-Contingency table에서 있는 두 개 이상의 변수가 서로 독립인지 검정

-기대빈도는 두 변수가 서로 상관 없고 독립적이라고 기대하는 것을 의미하며, 관찰빈도와의 차이를 통해 기대빈도의 진위여부를 밝힘

-귀무가설 : 두 변수는 연관성이 없음 (독립)

-대립가설 : 두 변수는 연관성이 있음 (독립X)





2. What is a Chi Square Statistic?

: 카이제곱 통계량은 데이터 분포와 가정된 분포 사이의 차이를 나타내는 측정값


: 카이제곱 검정통계량이 카이제곱분포를 따른다면 카이제곱분포를 사용해서 가설검정 수행

: 귀무가설 하에서 검정통계량이 카이제곱분포를 따를 때,

검정통계치가

*카이제곱분포에서 일어나기 어려운 일이면 귀무가설 기각 (대립가설 채택)

*충분히 일어날 수 있는 일이면 귀무가설 기각 X 

: 이 때 일어날 법한 일인지, 희귀한 경우인지의  판단 기준은 confidence level 혹은 p value





3. Chi Square P-Values

: 카이제곱검정으로 p value를 얻게 됨 (p value는 검정 결과가 얼마나 유의한가에 대한 지표)

: 카이제곱검정을 수행하고, p value를 얻기 위해 아래 두가지 정보가 필요

ㄱ) 자유도(Degrees of freedom) = n - 1 (n: 카테고리개수)

ㄴ) Alpha level(α) =  0.05 or 0.01 (연구자에 의해 결정됨)





4. The Chi-Square Distribution

: 카이제곱 분포는 감마 분포(gamma distribution)의 특수한 형태

: 카이제곱 분포는 항상 오른쪽으로 치우침

: 자유도(k)가 클수록 카이제곱 분포는 정규분포에 유사해짐





5. How to Calculate a Chi Square Statistic

카이제곱검정의 구하는 과정을 살펴보자

256명의 시각예술가들이 있고, 각자의 별자리(Aries, Taurus...)를 조사했다.

별자리의 종류가 시각예술가들 사이에서 고르게 분포한다는 가설을 카이제곱으로 검정해본다.


Step 1. Expected value(3번째 열) 계산

⇒ 256명을 12개 별자리로 나눈 값 (256/12=21.333)

Step 2. Residual value(4번째 열) 계산

⇒ 관찰값(실제값) - 기대값 (29-21.333=7.667)

Step 3. (Obs-Exp)² value(5번째 열) 계산

⇒ Residual value 제곱 (7.667²=58.782889)

Step 4. Component value(6번째 열) 계산

⇒ (Obs-Exp)² value를 Expected value로 나눔 (58.782889/21.333=2.7554...)

Step 5. 카이제곱 통계량 계산

⇒ 마지막 열을 모두 더함 (2.7554 + 0.3334 + ... +0.1302 = 5.0940...)


chi-square statistic(X²) = 5.094







#Reference
1) http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_HypothesisTesting-ChiSquare/BS704_HypothesisTesting-ChiSquare_print.html
2) https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/chi-square/
3) https://www.tutor2u.net/geography/reference/chi-squared-test
4) https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EA%B2%80%EC%A0%95
5) https://getcalc.com/statistics-chi-squared-distribution-calculator.htm
6) http://michaelminn.net/tutorials/r-categorical/
7) https://namu.wiki/w/%EC%B9%B4%EC%9D%B4-%EC%A0%9C%EA%B3%B1%20%EB%B6%84%ED%8F%AC
8) http://www-ist.massey.ac.nz/dstirlin/CAST/CAST/Hindep/indep6.html






카이제곱검정 (Chi square test) End

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

피셔정확검정 (Fisher exact test)  (0) 2019.10.15
1종, 2종 오류 (Type 1, 2 error)  (0) 2019.10.07
FDR (False Discovery Rate)  (1) 2019.09.23
심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
산포도 (Dispersion)  (0) 2019.09.02

+ Recent posts