상관 분석 (Correlation analysis)
상관 분석 (Correlation analysis) Start.
BioinformaticsAndMe
1. 상관분석 (Correlation analysis) 이란?
두 변수간에 어떤 선형적 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정한다.
2. 상관계수(correlation coefficient)
r 값은 X 와 Y 가 완전히 동일하면 +1, 반대방향으로 완전히 동일 하면 –1
참고로 r 값이 0인 경우 상관이 전혀 없다라는 표현보다는 선형의 상관관계가 아니다라고 말하는게 적절하다.
(두 변수가 곡선관계라면 상관분석으로 설명할 수 없다)
보통 연구과정에서 생물학 데이터로 상관분석을 하게 되면, Perfect나 Strong 의 coefficient가 나오는 경우는 드물다.
분석에서 매우 높은 상관계수가 나왔다면, 두 변량사이의 상관정도를 결정짓기 전에
데이터 내에 bias가 있는지 반드시 확인해볼 필요가 있겠다.
3. 상관 계수의 종류
상관 계수를 구하는 많은 방법이 있겠지만, 가장 많이 사용되는 correlation coefficient들을 소개하겠다.
피어슨, 켄달, 스피어만 상관계수라 불린다.
ㄱ) Pearson(피어슨)
-상관 분석에서 기본적으로 사용되는 피어슨 상관계수
-연속형 변수의 상관관계 측정 (신장, 몸무게)
-모수 검정 (parametric test)
ㄴ) Kendall(켄달)
-켄달 상관 계수( τ : tau)
-변수값 대신 순위로 바꿔서 이용하는 상관계수 (학교등급, 졸업학위 level)
-비모수 검정 (non-parametric test)
-샘플사이즈가 적거나, 데이터의 동률이 많을 떄 유용
ㄷ) Spearman(스피어만)
-스피어만 상관 계수( ρ : rho )
-변수값 대신 순위로 바꿔서 이용하는 상관계수 (학교등급, 졸업학위 level)
-비모수 검정 (non-parametric test)
-데이터 내 편차와 애러에 민감하며, 일반적으로 켄달 상관계수보다 높은 값을 가짐
#켄달과 스피어만은 순위 일치 정도를 검사한다는 점에서 유사한 분석이다.
따라서, 동일 데이터로 상관분석을 진행한다면 상관계수 값이 약간 다를지라도 비슷한 추론을 내린다.
#아래 사이트에 접속하면 'Kendall vs Spearman' 의 상세한 설명을 볼 수 있다.
http://www.statisticssolutions.com/kendalls-tau-and-spearmans-rank-correlation-coefficient/
마무리하며..
연구자들이 상관분석에서 가장 많이하는 실수가
상관분석 그림을 보며 원인-결과로 설명하는 것이다.
A와 B가 positive correlation이란 사실은
A가 증가하는게 원인이 되서 B가 증가하는지,
B가 증가하는게 원인이 되서 A가 증가하는지,
알 수 없다.
원인-결과 분석을 하고싶다면, 상관분석이 아니라
Y(결과)=aX(원인)+b의 회귀분석을 수행하자!
상관 분석 (Correlation analysis) End.
BioinformaticsAndMe