[PCA] 주성분분석 3 Start.

BioinformaticsAndMe


'[PCA] 주성분분석 2' 에 이어지는 내용이다.




12. PCA plot 에 샘플 좌표 표시하기

-PC1과 PC2 각각에 투영된 좌표를 연결하면, PCA plot 에서 샘플들의 위치를 알 수 있다.

-위 그림은 'Sample2' 좌표가 확인되었다.

-'Sample1'의 좌표도 확인할 수 있다.

-같은 방식으로 진행했을 때, PCA plot 에서 모든 샘플들의 좌표를 확인하게 된다.





13. 주성분의 Variation

-SS 값은 origin (0,0)에서 샘플들의 d 제곱합 이었다 (주성분분석 2 칼럼 참조).

-SS 값에 자유도 (n-1)로 나누게되면, 주성분에 대한 Variation 값이 나오게 된다.

-위 설명을 분산의 공식으로 이해하면 되겠다 (Variation 값이 클수록 샘플들의 분포가 넓게 퍼져있다는 의미다).





14. 주성분의 설명력 이해하기

-위 그림의 예처럼, PC1의 Variation 값을 15, PC2의 Variation 값을 3 이라 해보자.

-두 개 주성분의 Total variation은 15+3 = 18 이다.

-PC1의 Variation은 Total variation의 83% (15/18)을 설명한다.

-같은 방식으로 PC2의 Variation은 Total variation의 17% (3/18)을 설명한다.


-왼쪽 Bar plot이 PCA에서 주성분들이 샘플들을 어느정도 설명할 수 있느냐를 보여주는 것이다.

-설명력이란 표현을 사용하며, PC1은 변량의 83%이상 설명할 수 있고 PC2는 변량의 17%를 설명할 수 있다.

-PC1이 PC2보다 샘플들의 유사성(비유사성)을 보는데 상대적으로 더 정확하다고 할 수 있겠다.

-쉽게 설명하면, 예로든 PCA plot 에서 위아래의 차이보다 좌우의 차이가 더 큰 의미를 갖는다고 말하겠다.





마무리하며...

후 이제 끝났다....

PCA 알고리즘을 설명하는데 오래 걸렸다.

https://www.youtube.com/watch?time_continue=285&v=FgakZw6K1QQ

사실, 칼럼의 출처인 위 동영상과 함께본다면 더 쉽게 이해될 수 있다.

개인적으로 유전자 발현분석에서 PCA를 엄청나게 많이 사용했었는데, 개념과 원리정도만 이해하고

만들어지는 알고리즘에 대해서는 무심했던 것 같다.

다음 칼럼에서는 Multi-Dimensional Scaling (MDS, 다차원척도법)과의 공통점 및 차이점에 대해 살펴보겠다.  





[PCA] 주성분분석 3 End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] Base Quality Score Recalibration (BQSR)  (0) 2018.08.25
[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[GWAS] Imputation  (2) 2018.07.09

+ Recent posts