[PCA] 주성분분석 2 Start.

BioinformaticsAndMe


'[PCA] 주성분분석 1' 에 이어지는 내용이다.




8. Best line 을 찾기 위한 정량적 접근 방법

-샘플들의 좌표(초록색점)를 설명하는 Best line을 찾는 과정은 두가지로 설명된다.

-먼저 위에 그림처럼 임의의 빨간선을 그엇을 때, 샘플들의 최단거리를 '초록색 X'로 표시한다.

-모든 샘플의 최단거리를 표시하고, 모든 거리의 합이 가장 최소가 되는 Best line을 찾는게 첫번째 방법이다.

-'Minimization method' 라 칭하겠다. 


-다음은 Origin (0, 0) 에서 '초록색 X'로 표시까지의 거리를 최대로하는 Best line을 찾는 것이 두번째 방법이다.

-'Maximization method' 라 칭하겠다.

-사실, Minimization이나 Maximization 모두 계산해보면 같은 의미를 가지게 된다.

-Best line에서 샘플 좌표들의 거리의 합이 최단일수록, 원점에서 각 초록색 X의 거리의 합은 최대가 된다.

-수학적으로 우리가 잘 알고있는 피타고라스 정리를 적용하면 이해가 빨라진다. 아래를 살펴보자.




9. 피타고라스 정리 적용

-'a' : 원점에서 샘플 좌표까지의 거리 (일정함, 고정된 값)

-'b' : Best line 과 샘플 좌표의 최단 거리 (Minimization 값)

-'c' : 원점에서 샘플 좌표의 최단 거리에 있는 Best line까지의 거리 (Maximization 값)

-'a'의 값이 변하지 않고, 피타고라스 정리에 따라 b값이 적어질수록 c값이 커지고, b값이 커질수록 c값이 작아진다.

-정리하자면,  PCA는 'b'를 최소로하는 혹은 'c'를 최대로하는 Best line (주성분)을 찾는 과정이라 볼 수 있겠다.




10. Sum of Squared distances (SS) 찾기

-Best line을 찾는 과정은 주로 Maximization을 활용한다.

-위에 'd1' 과 같이 최대거리를 통해 주성분을 만드는게 실제 계산과정에서 용이하다.

-Minimization은 데이터의 최단거리를 이용해 주성분을 만든다는 해석의 측면으로 접근한다.


-우리가 가진 샘플 6개의 d 값 (d1, d2, d3, d4, d5, d6)를 구할 수 있고 제곱하여 합한다.

-제곱하는 이유는 d 값은 상대적이므로 음수의 값을 가질 수 있기에 제곱한다.

-제곱의 합은 'sum of squared distances', 줄여서 'SS'라 부른다.

-우리는 저 SS가 최대인 Best line (주성분)을 찾으면 끝난다.




11. Principal Component 1 (PC1)  &  Principal Component 2 (PC2)

-우리가 찾아낸 Best line이 위에서 언급했던대로 '주성분 1 (Principal Component 1)'이 된다.


-위 그림의 화살표는 Gene1과 Gene2의 분포정도와 PC1 의 관계를 설명한다.

-'우리가 PC1을 만들었을때, 샘플들의 분포는 Gene1보다 Gene2의 스케일을 따르는 경향이 있다' 라 이해하면 되겠다.

-우리의 주성분 PC1 은 Gene1의 값에 크게 영향받고 있으며,

-다시 해석하여, 샘플들은 Gene1 발현에 큰 편차를 보인다.


-'주성분 2 (Principal Component 2)' PC1과 직교하는 라인이라 생각하면 되겠다.

-PC2의 자세한 설명은 동영상을 참고하시면 된다.


-앞서 과정에서 만든 PC1과 그에 수직하는 PC2을 rotation하면 위와 같은 그림을 볼 수 있다.

-우리가 그동안 봐왔던 PCA의 그림의 두 축이 생성된 순간이다.




마무리하며..

PCA 알고리즘 마지막 파트에서는 PC 축에 늘 함께 붙어있는 ('%' ,설명력) 을 설명하는 시간을 갖겠다.




[PCA] 주성분분석 2 End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 1  (0) 2018.07.25
[GWAS] Imputation  (2) 2018.07.09
[NGS Alignment] BWT 알고리즘  (0) 2018.07.06

+ Recent posts