1종, 2종 오류 (Type 1, 2 error) Start

BioinformaticsAndMe






Type I and Type II errors


: 1종 오류(type I error)와 2종 오류(type II error)는 각각 귀무가설을 잘못 기각하는 오류와 귀무가설을 잘못 채택하는 오류

1. Type I error

→ 귀무가설이 실제로 참이지만, 귀무가설을 기각하는 오류

→ 실제 음성(negative)인 것을 양성(positive)으로 판정

→ 거짓 양성(false positive) 또는 알파 오류(α error)라 불림

→ Type I error의 0.05 및 5% 유의수준은 귀무가설이 5% 확률로 잘못 기각된다는 의미


2. Type II error

→ 귀무가설이 실제로 거짓이지만, 귀무가설을 채택하는 오류

→ 실제 양성(positive)인 것을 음성(negative)으로 판정

→ 거짓 음성(false negative) 또는 베타 오류(β error)라 불림





1종 오류 예제


ㄱ) '한 사람이 무고하다'는 귀무가설 하에서, 죄가 없는 사람에게 유죄를 내린 경우 (false positive, α error)

ㄴ) '메일은 스팸이 아니다'는 귀무가설 하에서, 스팸이 아닌 메일이 스팸박스로 보내진 경우 (false positive, α error) 

ㄷ) '승객 가방에 금속이 없다'는 귀무가설 하에서, 금속이 없는 가방에 대해 금속탐지기가 울린 경우 (false positive, α error)


#Type 1 error: 임신하지 않은 사람에게 '너는 임신이다' 라고 말함 (잘못된 인정)

#Type 2 error: 임신한 사람에게 '너는 임신이 아니다' 라고 말함 (잘못된 부정)




2종 오류 예제


ㄱ) '한 사람이 무고하다'는 귀무가설 하에서, 죄가 있는 사람에게 무죄를 내린 경우 (false negative, β error)

ㄴ) '메일은 스팸이 아니다'는 귀무가설 하에서, 스팸메일을 스팸박스로 보내지 못한 경우 (false negative, β error)

ㄷ) '승객 가방에 금속이 없다'는 귀무가설 하에서, 금속이 있는 가방에 대해 금속탐지기가 울리지 않은 경우 (false negative, β error)


# α error와 β error 확률은 서로 상반됨 (하나가 커지면, 나머지가 작아짐)

# 일반적으로 α error에 기준을 두고 가설을 채택하거나 기각함







#Reference

1) https://www.tutorialspoint.com/statistics/type_ii_error.htm

2) https://www.abtasty.com/blog/type-1-and-type-2-errors/

3) https://ko.wikipedia.org/wiki/1%EC%A2%85_%EC%98%A4%EB%A5%98%EC%99%80_2%EC%A2%85_%EC%98%A4%EB%A5%98

4) https://effectsizefaq.com/2010/05/31/i-always-get-confused-about-type-i-and-ii-errors-can-you-show-me-something-to-help-me-remember-the-difference/

5) https://stats.stackexchange.com/questions/110433/examples-for-type-i-and-type-ii-errors





1종, 2종 오류 (Type 1, 2 error) End

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

경향분석 (Cochran-Armitage Trend test)  (0) 2019.10.22
피셔정확검정 (Fisher exact test)  (0) 2019.10.15
카이제곱검정 (Chi square test)  (0) 2019.10.01
FDR (False Discovery Rate)  (1) 2019.09.23
심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03

카이제곱검정 (Chi square test) Start

BioinformaticsAndMe






카이제곱검정 (Chi square test)

: χ² 검정은 카이제곱 분포에 기초한 통계적 방법

: 관찰된 빈도가 기대되는 빈도와 유의하게 다른지를 검증

범주형 자료로 구성된 데이터 분석에 이용

카이제곱 값 χ² = Σ(관측값 - 기댓값)² / 기댓값




1. What is a Chi Square Test?

: 카이제곱검정에는 두 가지 형태가 있으며, 같은 카이제곱 통계량과 분포를 사용하지만 다른 목적을 가짐

ㄱ) Goodness of fit test (적합도 검정)

-관찰된 비율 값이 기대값과 같은지 조사하는 검정 (어떤 모집단의 표본이 그 모집단을 대표는지 검정)

ㄴ) Test of homogeneity (동질성 검정)

-두 집단의 분포가 동일한지 검정

ㄷ) Test for independence (독립성 검정)

-Contingency table에서 있는 두 개 이상의 변수가 서로 독립인지 검정

-기대빈도는 두 변수가 서로 상관 없고 독립적이라고 기대하는 것을 의미하며, 관찰빈도와의 차이를 통해 기대빈도의 진위여부를 밝힘

-귀무가설 : 두 변수는 연관성이 없음 (독립)

-대립가설 : 두 변수는 연관성이 있음 (독립X)





2. What is a Chi Square Statistic?

: 카이제곱 통계량은 데이터 분포와 가정된 분포 사이의 차이를 나타내는 측정값


: 카이제곱 검정통계량이 카이제곱분포를 따른다면 카이제곱분포를 사용해서 가설검정 수행

: 귀무가설 하에서 검정통계량이 카이제곱분포를 따를 때,

검정통계치가

*카이제곱분포에서 일어나기 어려운 일이면 귀무가설 기각 (대립가설 채택)

*충분히 일어날 수 있는 일이면 귀무가설 기각 X 

: 이 때 일어날 법한 일인지, 희귀한 경우인지의  판단 기준은 confidence level 혹은 p value





3. Chi Square P-Values

: 카이제곱검정으로 p value를 얻게 됨 (p value는 검정 결과가 얼마나 유의한가에 대한 지표)

: 카이제곱검정을 수행하고, p value를 얻기 위해 아래 두가지 정보가 필요

ㄱ) 자유도(Degrees of freedom) = n - 1 (n: 카테고리개수)

ㄴ) Alpha level(α) =  0.05 or 0.01 (연구자에 의해 결정됨)





4. The Chi-Square Distribution

: 카이제곱 분포는 감마 분포(gamma distribution)의 특수한 형태

: 카이제곱 분포는 항상 오른쪽으로 치우침

: 자유도(k)가 클수록 카이제곱 분포는 정규분포에 유사해짐





5. How to Calculate a Chi Square Statistic

카이제곱검정의 구하는 과정을 살펴보자

256명의 시각예술가들이 있고, 각자의 별자리(Aries, Taurus...)를 조사했다.

별자리의 종류가 시각예술가들 사이에서 고르게 분포한다는 가설을 카이제곱으로 검정해본다.


Step 1. Expected value(3번째 열) 계산

⇒ 256명을 12개 별자리로 나눈 값 (256/12=21.333)

Step 2. Residual value(4번째 열) 계산

⇒ 관찰값(실제값) - 기대값 (29-21.333=7.667)

Step 3. (Obs-Exp)² value(5번째 열) 계산

⇒ Residual value 제곱 (7.667²=58.782889)

Step 4. Component value(6번째 열) 계산

⇒ (Obs-Exp)² value를 Expected value로 나눔 (58.782889/21.333=2.7554...)

Step 5. 카이제곱 통계량 계산

⇒ 마지막 열을 모두 더함 (2.7554 + 0.3334 + ... +0.1302 = 5.0940...)


chi-square statistic(X²) = 5.094







#Reference
1) http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_HypothesisTesting-ChiSquare/BS704_HypothesisTesting-ChiSquare_print.html
2) https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/chi-square/
3) https://www.tutor2u.net/geography/reference/chi-squared-test
4) https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EA%B2%80%EC%A0%95
5) https://getcalc.com/statistics-chi-squared-distribution-calculator.htm
6) http://michaelminn.net/tutorials/r-categorical/
7) https://namu.wiki/w/%EC%B9%B4%EC%9D%B4-%EC%A0%9C%EA%B3%B1%20%EB%B6%84%ED%8F%AC
8) http://www-ist.massey.ac.nz/dstirlin/CAST/CAST/Hindep/indep6.html






카이제곱검정 (Chi square test) End

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

피셔정확검정 (Fisher exact test)  (0) 2019.10.15
1종, 2종 오류 (Type 1, 2 error)  (0) 2019.10.07
FDR (False Discovery Rate)  (1) 2019.09.23
심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
산포도 (Dispersion)  (0) 2019.09.02

FDR (False Discovery Rate) Start

BioinformaticsAndMe






FDR (False Discovery Rate)

: FDR은 다중검정비교에서 'False positives / Total positives'의 비율을 의미함

: 1종 오류 = False positives

: 1종 오류는 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류 (실제 음성인 것을 양성으로 판정)

: Benjamini-Hochberg Procedure은 FDR을 줄이는 방법으로 단순하지만, 직관적이고 강력함

: Bonferroni correction보다 완만한 p-value 감소가 진행되어, 제거되는 True positive가 비율이 낮아짐





FDR 보정 과정 예제

0. Simple example

: FDR 검정의 예로 사용될 데이터는 아래와 같음

: 유전자(발현)는 약물에 영향받지 않는다는 가정

: 10개 유전자 검정 → 다중검정비교



1. Order to p-values from smallest to largest

: p-value의 값을 가장 유의한 순서로 나열함

: 10개 유전자에 대한 p-value 값이 산출됐고, 아래 그림처럼 나열됨

: p-value 0.01은 false positive ← 동일한 분포에서 추출된 데이터 비교이므로 차이가 유의할 수 않음




2. Rank the p-values

: 가장 유의한 수준으로 순위를 매김




3. The largest FDR adjusted p-value and the largest p-value are the same

: 순위의 마지막(10번째)인 p-value는 FDR 보정 후에도 동일한 값을 가짐

: 마지막 순위 p-value = 마지막 순위 adj p-value




4. The next largest adjusted p-value is the smaller of two options

: 바로 옆인 9번째 adjusted p-value는 두 가지 값 중 작은 것을 선택

a - 이전 adjusted p-value 값

b - 현재 p-value X (검정의 총 개수/해당 위치 순위)



: 9번째 위치에서 원래 p-value = 0.81

: 검정의 총 개수 = 10

: 해당 위치 순위 = 9

를 수식에 넣고 계산하면 0.90이 나온다

따라서, 9번째 위치에서 FDR 보정 후, adjusted p-value는 0.90이 된다



: 앞서와 같은 방식으로 첫번째 순위까지 반복하여 p-value 보정


p-value가 0.01으로 유의하다고 생각했던 첫번째 값은

FDR 보정 후 adjusted p-value가 0.1이 됐기 때문에,

더 이상 유의하지 않음


다중검정비교로 생길 수 있는 1종 오류(false positive)를 FDR 보정으로 회피






위 내용은 StatQuest 영상을 참조함






#Reference
1) https://www.youtube.com/watch?v=K8LQSvtjcEo
2) https://en.wikipedia.org/wiki/False_discovery_rate
3) https://www.statisticshowto.datasciencecentral.com/benjamini-hochberg-procedure/
4) https://www.jstor.org/stable/2346101?seq=1#page_scan_tab_contents
5) https://ko.wikipedia.org/wiki/1%EC%A2%85_%EC%98%A4%EB%A5%98%EC%99%80_2%EC%A2%85_%EC%98%A4%EB%A5%98




FDR (False Discovery Rate) End

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

1종, 2종 오류 (Type 1, 2 error)  (0) 2019.10.07
카이제곱검정 (Chi square test)  (0) 2019.10.01
심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
산포도 (Dispersion)  (0) 2019.09.02
비모수 검정 (Non-parametric test)  (0) 2019.05.31

심슨의 역설 (Simpson's Paradox) Start

BioinformaticsAndMe





심슨의 역설 (Simpson Paradox)

영국의 통계학자 에드워드 심슨이 정리한 역설 (심슨가족 관련 x)

각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류

사람들의 직관과 반대되는 역설적인 상황이 발생


아래 예를 살펴보면 이해가 쉬울 듯 하다.


EX) 약물 치료 효과

신장결석 치료에서 심슨의 역설 예를 살펴보자 (C. R. Charig, D. R. Webb, S. R. Payne, O. E. Wickham, March 1986)


#Table1

위 테이블을 보고 어떤 치료 약물이 신장결석에 효과적인가? 라고 물었을 때,

'Treatment B 가 더 효과적이다' 라고 말할 수 있다.

하지만, 이 테이블에 변수(신장결석 크기)를 하나 추가하여 좀 더 상세히 살펴보면,


#Table2

위와 같은 결과 결과를 볼 수 있다.

'Treatment A 가 작은 결석, 큰 결석 모두에서 더 효과적이다' 의 결과를 냈다

(처음 직관적으로 살펴본 결과에 반대되는 역설적인 상황이 발생 = 심슨 파라독스)


여기서 신장결석의 크기는 혼재변수(confounding variable or hidden variable)로서,

Table1에서는 이러한 숨겨진 변수가 누락된 상태이다.

변수가 누락된 상태에서 데이터가 통합되었기 때문에, 원래 결과와 전혀 다른 의미를 도출하는 오류를 범하게 된다.



심슨의 역설 피하는 방법은 연구자가 분석하는 데이터를 전반적으로 이해하고

변수에 영향을 주는 모든 요인들을 고려해야만 한다.

신장결석을 치료하는 연구에서는 예를 들어 '결석의 크기, 환자의 나이, 성별 등'의 인자들을 살펴봐야겠다.




아래는 'EBS 지식프라임'의 심슨 파라독스 관련 영상이다.







#Reference
1) https://www.analyticsindiamag.com/understanding-simpsons-paradox-and-its-impact-on-data-analytics/
2) https://www.mathpark.com/530
3) https://namu.wiki/w/%EC%8B%AC%EC%8A%A8%EC%9D%98%20%EC%97%AD%EC%84%A4
4) https://www.youtube.com/watch?v=7qekbQ8Ra1E




심슨의 역설 (Simpson's Paradox) End

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

카이제곱검정 (Chi square test)  (0) 2019.10.01
FDR (False Discovery Rate)  (1) 2019.09.23
산포도 (Dispersion)  (0) 2019.09.02
비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29

산포도 (Dispersion) Start.

BioinformaticsAndMe





산포도 (Dispersion)

데이터가 얼마나 퍼져 있는지 설명하는 지표 (흩어진 정도).

범위, 분산, 표준편차, 사분범위 등을 산포도의 지표로 사용한다.

일반적으로 값이 클수록 데이터가 넓게 퍼져 있으며,

               값이 작을수록 데이터가 조밀하게 분포해 있다.




1. 범위 (Range)

-주어진 데이터 분포에서 '최대값(max)-최소값(min)'

-범위의 값이 크다면 데이터들이 넓게 퍼져 있음




2. 분산 (Variance)

-확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자

  '실제값(actual value) - 평균값(average value)'

-분산(or 표준편차) 값이 클수록, 데이터 값들이 전체평균에 비해 변동이 큼


#예제

ㄱ) 6, 2, 3, 1 의 데이터들이 주어졌을 때 평균값: 3

ㄴ) 실제값(actual value) - 평균값(average value)


ㄷ) 앞에서 구한 총합(14)을 총데이터 숫자(4개)로 나눠준 값 = 분산 값(3.5)




3. 표준편차 (Standard Deviation;SD)

-대부분 통계 분석에서는 분산의 제곱근인 표준편차가 주로 사용됨 (데이터 단위 맞추기 위함)

-표준편차가 클수록 데이터 값들이 흩어져 있음


#예제

아래 그림에서 표준편차가 상대적으로 큰 파란색 점들이 더 넓은 분포를 이루고 있음




4. 사분위수 범위(Interquartile range;IQR)

-사분위수 범위는 데이터 값들의 중간 50%에 포함되는 산포도를 의미

-사분위수 범위 = Q3(상위25%값) - Q1(하위25%값)

-이상치(Outlier)가 주는 영향을 최소화하기 위해 사용









#Reference
1) https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0
2) https://slideplayer.com/slide/7622435/
3) https://unofficed.com/standard-deviations/
4) https://ko.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/interquartile-range-iqr/a/interquartile-range-review



산포도 (Dispersion) End.

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

FDR (False Discovery Rate)  (1) 2019.09.23
심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19

비모수 검정 (Non-parametric test) Start.

BioinformaticsAndMe





비모수 검정(Non-parametric test)

비모수 검정(Non-parametric test)은 모수에 대한 가정을 전제로 하지 않고 모집단의 형태와 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계적으로 검정하는 분석 방법이다.


1. 비모수적 검정을 사용하는 때

ㄱ) 표본수가 30개 미만이면서 정규성을 만족하는 경우.

-이론적으로 표본의 수가 30 이상이면 중심극한정리에 의해 모수적 방법을 사용할 수 있다.


ㄴ) 변수의 척도가 명목척도이거나 서열 척도인 경우.

-비모수적 방법은 대게 Rank(상대적인 크기)를 많이 이용한다.


ㄷ) 수치에는 의미가 없고 상대적 크기가 의미 있는 경우.




2. 모수검정 vs 비모수검정




3. 모수검정과 비모수검정의 종류



4. 비모수검정 예제 (R example)

CBT: Cognitive Behavior Treatment)로 수행하였을 경우의 몸무게 차이를 짝검정

> CBT <- subset(anorexia, Treat=='CBT')

> shapiro.test( CBT$Prewt - CBT$Postwt )

 

      Shapiro-Wilk normality test


data:  CBT$Prewt - CBT$Postwt

W = 0.8962, p-value = 0.007945


p-value가 0.05보다 작으므로 귀무가설을 기각 -> 데이터가 정규분포를 따르지 않음.
따라서 t-test 대신 비모수 방법인 wilcoxon signed rank test를 이용한다.
paired 데이터이므로 치료 전후의 차이가 0인지를 검정하면 된다.

> wilcox.test( CBT$Prewt, CBT$Postwt, paired=TRUE )

Wilcoxon signed rank test with continuity correction

data:  CBT$Prewt and CBT$Postwt
V = 131.5, p-value = 0.06447
alternative hypothesis: true location shift is not equal to 0

paired=TRUE 옵션을 사용하여 수행. p-value가 유의수준이 아니므로 CBT 전후 체중차이 없다고 판단할 수 있다.






#Reference
1) https://en.wikipedia.org/wiki/Nonparametric_statistics
2) https://keydifferences.com/difference-between-parametric-and-nonparametric-test.html



비모수 검정 (Non-parametric test) End.

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
산포도 (Dispersion)  (0) 2019.09.02
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10

T-검정 (T-test) Start.

BioinformaticsAndMe





1. T검정(T-test) ?

통계학자 윌리엄 고셋(가명 'Student')이 기네스 양조 공장에서 일하고 있었는데,

적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착안하여 t 분포를 제안.


T-test는 두 집단 간의 평균을 비교하는 모수적 통계방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용 가능.

#모수적 방법: 모집단의 특성을 가정하여 유도된 검정법.

#비모수적 방법: 모집단의 모수에 대한 가정 없이 유도된 검정법.


Table1. Independent t test: 비교하는 두 군이 서로 독립인 경우.

  Treatment A와 Treatment B는 서로 독립적이므로 A와 B의 변화량 비교.


Table2. Paired t test: 서로 짝을 이뤄 비교하는 경우.

     ID 값을 기준으로 Treatment A와 Treatment B의 변화량을 짝지어 비교.






2. T 분포 (Student’s t-distribution)

-정규 분포(normal distribution)의 평균을 측정할 때 많이 사용하는 분포.

-모집단이 정규분포라는 정도만 알고, σ2(모분산)을 모를 때 s2(표본분산)으로 대체하여 모 평균 μ를 구할 때 사용.

-적은 표본으로도 모집단 평균을 추정하려고 정규분포 대신에 사용되는 확률분포.

-표준정규분포와 유사하게 0 을 중심으로 좌우대칭이나, 표준정규분포보다 평평하고 기다란 꼬리를 갖음 (양쪽 꼬리가 두터운 형태).

-자유도(표본수 - 1)가 증가할수록 표준정규분포에 가까워짐 (자유도가 30 이 넘으면 표준정규분포와 비슷해짐; 중심극한정리).





3. 독립표본 T검정 (Independent T test) 예제

각기 다른 두 모집단의 속성인 평균을 비교하기 위하여, 두 모집단으로부터 표본들을 독립적으로 추출하여 표본의 평균들을 비교함으로써 모집단의 유사성을 검정하는 방법. 두 독립표본 Z 검정과 유사하지만 두 모집단의 분산을 알지 못하고 표본의 평균을 가지고 두 모집단을 비교하기에 표준오차의 계산이 상이하다.

* 등분산가정을 충족 (두 모집단의 분산이 동일함) - 표준오차 계산 시 통합분산을 사용하므로 자유도는 (n-2).

* 표본의 분산(= 집단변화량=표준편차의 제곱)


예) 전통적 교수법과 새 교수법에 의한 학업성취도 차이를 유의수준 0.05에서 검정


(저질 화살표 죄송합니다.)


귀무가설을 기각하므로 유의수준 0.05에서 전통적 교수법과 새 교수법에 의한 학업성취도 차이가 있다






#아래 내용을 참고하였습니다

1) Kim, T. K. (2015). T test as a parametric statistic. Korean journal of anesthesiology, 68(6), 540-546.

2) https://namu.wiki/w/%EC%8A%A4%ED%8A%9C%EB%8D%98%EC%B8%A0%20t-%EB%B6%84%ED%8F%AC

3) http://www.cogsci.bme.hu/~ktkuser/KURZUSOK/BMETE47MC38/2015_2016_1/7_The%20t-test.pdf

4) http://www.ktword.co.kr/abbr_view.php?m_temp1=1134

5) http://elearning.kocw.net/KOCW/document/2016/ust/jusejong/7.pdf






T-검정 (T-test) End.

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

산포도 (Dispersion)  (0) 2019.09.02
비모수 검정 (Non-parametric test)  (0) 2019.05.31
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10
베이지안 이론 (Bayesian theory)  (1) 2018.08.02

회귀 분석 (Regression analysis) Start.

BioinformaticsAndMe





1. 회귀분석 (Regression test) 이란?

회귀분석은 독립변인이 종속변인에 영향을 미치는지 알아보고자 할 때 실시하는 분석방법.

단순 선형 회귀분석은 독립변수 X(설명변수)에 대하여 종속변수 Y(반응변수)들 사이의 관계를 수학적 모형을 이용하여 규명하는 것.
규명된 함수식을 이용하여 설명변수들의 변화로부터 종속변수의 변화를 예측하는 분석이다.

#간단하게 '키(Height)에 따른 몸무게(Weight)' 를 예로 들면,
Weight = a + b*Height 가 되며,
결국 Height에 따라 Weight가 결정되므로, 
Height는 독립변수, Weight는 종속변수.





2. 회귀분석 배경
회귀(regression)의 사전적 의미는 'go back to an earlier and worse condition(옛날의 대표적인 상태로 돌아감)'을 의미한다.
예를 들어, 남자의 평균 Height는 175cm 라 하자. 세대를 거듭할때마다, 높은 Height + 낮은 Height 사람들 혹은 보통 Height + 보통 Height 사람들이 다양하게 결혼하여 자녀를 낳을 것이다. 결국에는 남자들의 평균 Height는 175cm으로 회귀하려는 경향을 보일 것이다. 

회귀의 기본 원리는 다음과 같이 선형 회귀모델의 직선과 실제 값 사이의 차를 뜻하는 residual error를 최소화 시키는 것이다.
위 예와 같이 적용한다면, X값에 따라 여러 Y값들이 나오겠지만, 결국에는 추론된 직선으로 회귀할 것이다.





3. 회귀분석 통계 검정

- 회귀분석에서의 통계검정은 1)만들어진 회귀모형이 유의한지 2)회귀계수들이 유의한지를 본다.

A)유의한 예측모형인가?

주어진 모든 변수들이 함께 어느 정도 예측변수의 변량을 설명(예측)하는가?

결정계수 R2 의 크기에 대해 F분포로 결정

B)어떤 예측변수가 유의한가?

각 독립변수(X)의 회귀계수 (b)가 유의한가?

t-검정을 사용


#아래는 회귀분석에서 통계검정에 사용되는 최소제곱법(최소자승법, method of least squares estimation) 소개이다.




#위 내용은 'KOCW 자료' 에서 발췌했으며, 상세한 내용은 아래를 참고





4. 회귀의 다양성

일반적으로 회귀라고 할 때 보통의 최소제곱(Ordinary Least Square, OLS)에 의한 회귀를 말하지만 그 외에도 수 많은 회귀 방법이 있다.

2005년에 Vito Ricci가 만든 목록을 보면 R에서 사용하는 회귀와 관련된 함수는 모두 205개이다.


A) 단순선형 회귀분석(단변량회귀, Simple linear regression)

단순선형 회귀는 종속변수와 독립변수 사이의 관계를 선형으로 설명한 것이다. 이 때 표준오차는 추정 값이며 신뢰구간은 정해지는 값이다.


B) 다중선형 회귀분석(다변량 회귀 분석, Multi linear regression)

종속적 결과변수가 2개 이상의 독립 변수에 의해 예측되는 회귀분석을 '다중선형회귀분석'이라고 부른다. 독립변수는 연속성이거나 범주형 모두 가능하다. 


C) 로지스틱 회귀분석(Logistic regression)

직선형 회귀분석과 다중 회귀분석은 종속변수가 연속적이라는 가정하에 적용되는 반면에 로지스틱 회귀분석은 이분화된 항목일 경우에 사용한다. 따라서 이론적인 이항분포를 보인다. 

 

D) Cox 비례회귀분석(proportional Cox regression)

Cox 비례회귀분석은 생존이나 그 외에도 시간이 관계된 사건들에 영향을 미치는 변수를 결정하기 위해 사용한다. 결과측정에 사용된 시간은 실제 생존시간이 아니며 위험비의 개념이 사용된다.







회귀 분석 (Regression analysis) End.

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
상관 분석 (Correlation analysis)  (0) 2018.08.10
베이지안 이론 (Bayesian theory)  (1) 2018.08.02
정규성 검정 (Normality Test)  (1) 2018.07.21

상관 분석 (Correlation analysis) Start.

BioinformaticsAndMe








1. 상관분석 (Correlation analysis) 이란?

두 변수간에 어떤 선형적 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정한다.





2. 상관계수(correlation coefficient)

상관계수 r = X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도

r 값은 X 와 Y 가 완전히 동일하면 +1,  반대방향으로 완전히 동일 하면 –1





참고로 r 값이 0인 경우 상관이 전혀 없다라는 표현보다는 선형의 상관관계가 아니다라고 말하는게 적절하다.

(두 변수가 곡선관계라면 상관분석으로 설명할 수 없다)




보통 연구과정에서 생물학 데이터로 상관분석을 하게 되면, Perfect나 Strong 의 coefficient가 나오는 경우는 드물다.

분석에서 매우 높은 상관계수가 나왔다면, 두 변량사이의 상관정도를 결정짓기 전에

데이터 내에 bias가 있는지 반드시 확인해볼 필요가 있겠다.





3. 상관 계수의 종류

상관 계수를 구하는 많은 방법이 있겠지만, 가장 많이 사용되는 correlation coefficient들을 소개하겠다.

피어슨, 켄달, 스피어만 상관계수라 불린다.


ㄱ) Pearson(피어슨)

-상관 분석에서 기본적으로 사용되는 피어슨 상관계수

-연속형 변수의 상관관계 측정 (신장, 몸무게)

-모수 검정 (parametric test)


ㄴ) Kendall(켄달)

-켄달 상관 계수( τ : tau)

-변수값 대신 순위로 바꿔서 이용하는 상관계수 (학교등급, 졸업학위 level)

-비모수 검정 (non-parametric test)

-샘플사이즈가 적거나, 데이터의 동률이 많을 떄 유용


ㄷ) Spearman(스피어만)

-스피어만 상관 계수( ρ : rho )

-변수값 대신 순위로 바꿔서 이용하는 상관계수 (학교등급, 졸업학위 level)

-비모수 검정 (non-parametric test)

-데이터 내 편차와 애러에 민감하며, 일반적으로 켄달 상관계수보다 높은 값을 가짐


#켄달과 스피어만은 순위 일치 정도를 검사한다는 점에서 유사한 분석이다.

따라서,  동일 데이터로 상관분석을 진행한다면 상관계수 값이 약간 다를지라도 비슷한 추론을 내린다.


#아래 사이트에 접속하면 'Kendall vs Spearman' 의 상세한 설명을 볼 수 있다.

http://www.statisticssolutions.com/kendalls-tau-and-spearmans-rank-correlation-coefficient/





마무리하며..

연구자들이 상관분석에서 가장 많이하는 실수가

상관분석 그림을 보며 원인-결과로 설명하는 것이다.

A와 B가 positive correlation이란 사실은

A가 증가하는게 원인이 되서 B가 증가하는지,

B가 증가하는게 원인이 되서 A가 증가하는지,

알 수 없다.

원인-결과 분석을 하고싶다면, 상관분석이 아니라

Y(결과)=aX(원인)+b의 회귀분석을 수행하자!





상관 분석 (Correlation analysis) End.

BioinformaticsAndMe



'Statistics' 카테고리의 다른 글

비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19
베이지안 이론 (Bayesian theory)  (1) 2018.08.02
정규성 검정 (Normality Test)  (1) 2018.07.21

베이지안 이론 (Bayesian theory) Start.

BioinformaticsAndMe







1. 빈도 확률(Frequentist probability) vs 베이지안 확률(Bayesian probability)

-빈도 확률(Frequentist probability)

> '동전의 앞면' 이 나올 확률은 어떻게 구할까? 우선 던져볼 것이다. 10번 던졌을 때 4개가 앞면이면, 앞면이 나올 확률 = 2/5.

100번 던졌을 때 45개가 앞면이면, 앞면이 나올 확률 = 9/20.  이런식으로 시행횟수를 반복하여 빈도수(Frequency)를 측정하게 되면,

우리에게 익숙한 빈도 확률을 계산할 수 있다.

-베이지안 확률(Bayesian probability)

> '화산이 폭발할 확률' 을 빈도 확률로 계산할 수 있을까? 어려울 것이다. 우리가 동전 던지기하듯 화산을 폭발시킬 수 없기에 빈도 확률 방법으로는 신뢰할만한 값을 얻기 어렵다. 세상에는 반복할 수 없는 사건이 무수히 많고, '빈도 확률'의 개념을 그러한 사건에 적용을 할 수 없다. 일어나지 않은 일에 대한 확률을 불확실성(uncertainty)의 개념. 즉, 사건과 관련 있는 어려 확률을 이용해 새롭게 일어날 사건을 추정하는 것이 베이지안 확률이다.






2. 베이지안 확률(Bayesian probability) 정의

-베이즈정리 (Bayes’ theorem)라 불리며, 종속적(의존적) 관계에 놓인 사건들을 기반으로 확률을 구함.

-두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리.

-사전확률 P(A)과 우도확률 P(B|A)를 안다면 사후확률 P(A|B)를 알 수 있음.

-베이지안 확률은 아래 조건부 확률로 나타내며, 정보를 업데이트하면서 사후확률 P(A|B)를 구하는 것이다.



P(A), 사전확률(prior probability) : 결과가 나타나기 전에 결정되어 있는 A(원인)의 확률.
P(B|A), 우도확률(likelihood probability) : A(원인)가 발생하였다는 조건하에서 B(결과)가 발생할 확률.
P(A|B), 사후확률(posterior probability) : B(결과)가 발생하였다는 조건하에서 A(원인)가 발생하였을 확률.




3. 베이지안 확률(Bayesian probability) 계산식

-위의 정의가 나오는 계산식 과정이다.

-P(B) 값은 A와 A 여집합과 P(B) 사이의 교집합 합으로 구할 수 있다.





4. 예제 


Q1) A씨가 Breast cancer 검사결과 양성으로 판정 받았다. A씨가 Breast cancer에 걸린 것으로 나올 확률은 몇 %일까?

(Breast cancer 검사의 정확도=90%) 

(Breast cancer 걸릴 확률=1%) 


A씨는 'Positive response'일 때, Breast Cancer에 걸릴 확률’을 구하는 것.

P(Breast|Positive) = P(Positive|Breast) * P(Breast) / P(Positive)


- P(Positive|Breast) = 0.9,    P(Positive|no Breast) = 0.1

- P(Breast) = 0.01,    P(no Breast) = 0.99

- P(Positive) = Breast일 때 Positive일 확률 + Breast이 아닐 때 Positive일 확률

    = 0.9 * 0.01 + 0.1 * 0.99

    = 0.108


-> P(Breast|Positive) = 0.9 * 0.01 / 0.108 = 0.083


A씨가 Breast cancer 검사에서 Positive일 경우, 실제 Breast cancer일 확률은 약 8.3%다.



Q2) 주어진 조건들을 이용해서 여성일 확률을 계산하자

-왼쪽부터 살펴보면,

여성일 확률이 1/2, 안경을 쓰고 여성일 확률이 1/5, 안경을 쓸 확률이 2/5 이다.

위 정보들을 조합하여 조건부확률에 적용했을 때, 안경을 쓴 사람이 여성일 확률은 1/4 이다.


-오른쪽을 살펴보면,

여성일 확률이 1/2, 머리가 길고 여성일 확률이 4/5, 머리가 길 확률이 2/3 이다.

위 정보들을 조합하여 조건부확률에 적용했을 때, 머리가 긴 사람이 여성일 확률은 3/5 이다.




마무리하며..

베이지안 확률은 머신 러닝 이해에 굉장히 중요하다.

Machine Learning은 데이터셋이 주어졌을 때, 특정 사건 혹은 가설의 확률을 높여줄 수 있는 최적의 모델을 찾는 것을 목적으로 한다.

따라서, 베이지안 모델이 주어진 정보를 업데이트 해나가면서, 최적의 사후확률을 계산하는 방식과 일맥상통한다.

다음 칼럼에서는 기계학습 과정에서 베이지안 이론을 어떤식으로 활용하는지 살펴보겠다.




베이지안 이론 (Bayesian theory) End.

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10
정규성 검정 (Normality Test)  (1) 2018.07.21

+ Recent posts