비지도 학습(Unsupervised learning) Start.

BioinformaticsAndMe





1) Unsupervised learning (비지도학습, 자율학습)

- 레이블 되지 않은 데이터에 대해 컴퓨터 스스로 학습하는 기계 학습(Machine Learning)의 한 방법.
- No labeled 데이터로 특정한 패턴과 규칙의 알고리즘 모델을 만든다. 즉 y없이 x만 이용해서 학습하는 것.






2) Unsupervised learning 예시

- 아래 그림은 샘플(column)과 유전자(row)의 발현을 기반으로 그린 Heatmap이다.

- Heatmap에서는 주로 Hierarchical clustering을 사용하는데, 이 방법이 비지도학습의 예이다.

- 사용자는 유전자나 샘플에 대해 어떠한 정보도 주지 않고, 오직 발현값만을 기준으로 계층적 클러스터링을 진행한다.

- Unsupervised clustering을 통해, co-expression을 보이는 유전자 군집을 뽑아낼 수 있고, outlier 샘플을 확인할 수도 있다.






3) Unsupervised learning을 이용한 알고리즘

  • k-평균 클러스터링 (k-means clustering)
  • 계층적 클러스터링 (Hierarchical clustering)
  • 분포 추정 (Underlying Probability Density Estimation)
  • 주성분 분석 (Principal component analysis, PCA)
  • 특이값 분해 (Singular value decomposition, SVD)




4) Unsupervised learning에서 참고사항

- Label 정보가 없다면, Unsupervised learning(비지도 학습) 알고리즘을 사용한다.

- 또한, 보유한 데이터를 최적으로 설명하는 Label을 찾고 싶다면, Supervised보단 Unsupervised가 효과적이다.

- 'ENCODE와 Roadmap Epigenomics Project'에서는 Histone modification이나 Transcription factor binding의 패턴을 찾기위해 Unsupervised learning을 사용한다.





#참고 문헌

1) Libbrecht, M. W., & Noble, W. S. (2015). Machine learning applications in genetics and genomics. Nature Reviews Genetics, 16(6), 321.

2) https://ko.wikipedia.org/wiki/%EC%A7%80%EB%8F%84_%ED%95%99%EC%8A%B5






비지도 학습(Unsupervised learning) End.

BioinformaticsAndMe


+ Recent posts