[PCA] 주성분분석 2 Start.
BioinformaticsAndMe
8. Best line 을 찾기 위한 정량적 접근 방법
-샘플들의 좌표(초록색점)를 설명하는 Best line을 찾는 과정은 두가지로 설명된다.
-먼저 위에 그림처럼 임의의 빨간선을 그엇을 때, 샘플들의 최단거리를 '초록색 X'로 표시한다.
-모든 샘플의 최단거리를 표시하고, 모든 거리의 합이 가장 최소가 되는 Best line을 찾는게 첫번째 방법이다.
-'Minimization method' 라 칭하겠다.
-다음은 Origin (0, 0) 에서 '초록색 X'로 표시까지의 거리를 최대로하는 Best line을 찾는 것이 두번째 방법이다.
-'Maximization method' 라 칭하겠다.
-사실, Minimization이나 Maximization 모두 계산해보면 같은 의미를 가지게 된다.
-Best line에서 샘플 좌표들의 거리의 합이 최단일수록, 원점에서 각 초록색 X의 거리의 합은 최대가 된다.
-수학적으로 우리가 잘 알고있는 피타고라스 정리를 적용하면 이해가 빨라진다. 아래를 살펴보자.
9. 피타고라스 정리 적용
-'a' : 원점에서 샘플 좌표까지의 거리 (일정함, 고정된 값)
-'b' : Best line 과 샘플 좌표의 최단 거리 (Minimization 값)
-'c' : 원점에서 샘플 좌표의 최단 거리에 있는 Best line까지의 거리 (Maximization 값)
-'a'의 값이 변하지 않고, 피타고라스 정리에 따라 b값이 적어질수록 c값이 커지고, b값이 커질수록 c값이 작아진다.
-정리하자면, PCA는 'b'를 최소로하는 혹은 'c'를 최대로하는 Best line (주성분)을 찾는 과정이라 볼 수 있겠다.
10. Sum of Squared distances (SS) 찾기
-Best line을 찾는 과정은 주로 Maximization을 활용한다.
-위에 'd1' 과 같이 최대거리를 통해 주성분을 만드는게 실제 계산과정에서 용이하다.
-Minimization은 데이터의 최단거리를 이용해 주성분을 만든다는 해석의 측면으로 접근한다.
-우리가 가진 샘플 6개의 d 값 (d1, d2, d3, d4, d5, d6)를 구할 수 있고 제곱하여 합한다.
-제곱하는 이유는 d 값은 상대적이므로 음수의 값을 가질 수 있기에 제곱한다.
-제곱의 합은 'sum of squared distances', 줄여서 'SS'라 부른다.
-우리는 저 SS가 최대인 Best line (주성분)을 찾으면 끝난다.
11. Principal Component 1 (PC1) & Principal Component 2 (PC2)
-우리가 찾아낸 Best line이 위에서 언급했던대로 '주성분 1 (Principal Component 1)'이 된다.
-위 그림의 화살표는 Gene1과 Gene2의 분포정도와 PC1 의 관계를 설명한다.
-'우리가 PC1을 만들었을때, 샘플들의 분포는 Gene1보다 Gene2의 스케일을 따르는 경향이 있다' 라 이해하면 되겠다.
-우리의 주성분 PC1 은 Gene1의 값에 크게 영향받고 있으며,
-다시 해석하여, 샘플들은 Gene1 발현에 큰 편차를 보인다.
-'주성분 2 (Principal Component 2)' 는 PC1과 직교하는 라인이라 생각하면 되겠다.
-PC2의 자세한 설명은 동영상을 참고하시면 된다.
-앞서 과정에서 만든 PC1과 그에 수직하는 PC2을 rotation하면 위와 같은 그림을 볼 수 있다.
-우리가 그동안 봐왔던 PCA의 그림의 두 축이 생성된 순간이다.
마무리하며..
PCA 알고리즘 마지막 파트에서는 PC 축에 늘 함께 붙어있는 ('%' ,설명력) 을 설명하는 시간을 갖겠다.
[PCA] 주성분분석 2 End.
BioinformaticsAndMe
'Algorithm' 카테고리의 다른 글
[GATK] HaplotypeCaller 알고리즘 (0) | 2018.08.13 |
---|---|
[PCA] 주성분분석 3 (0) | 2018.08.02 |
[PCA] 주성분분석 1 (0) | 2018.07.25 |
[GWAS] Imputation (2) | 2018.07.09 |
[NGS Alignment] BWT 알고리즘 (0) | 2018.07.06 |