지도 학습(Supervised learning) Start.

BioinformaticsAndMe





1) Supervised learning (지도 학습)

- 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법.
- Labeled된 데이터를 기반으로 학습하여 알고리즘 모델을 만들고, Unlabeled된 데이터의 Label을 예측.





2) Supervised learning 예시

- 아래 그림은 'Tumor size와 Age'을 기반으로 Benign or Malignant인지 분류하는 Classification 모델이다.

- 이 Classification 모델은 Benign, Malignant로 Labeled된 Training sample로 만들어진 것이다.

- 만약, 하나의 Unlabeled된 Testing sample을 이 모델에 넣게되면, Testing sample의 'Tumor size와 Age'에 따라 분류가 될 것이다.

- 'Tumor size와 Age'가 Malignant와 유사하다면 Testing sample을 Malignant라 예측할 수 있다.






3) Supervised learning을 이용한 알고리즘

  • 서포트 벡터 머신 (support vector machine)
  • 은닉 마르코프 모델 (Hidden Markov model)
  • 회귀 분석 (Regression)
  • 신경망 (Neural network)
  • 나이브 베이즈 분류 (Naive Bayes Classification)




4) Supervised learning에서 참고사항

- Label 정보가 없다면, Unsupervised learning(비지도 학습) 알고리즘을 사용한다.

- Label 정보가 있더라도, Supervised learning 항상 최선의 선택은 아니다. 모든 Supervised learning 기법들이 Training set과 Testing set의 분포가 같을 것이라 가정하고 진행되므로, Training과 Testing 샘플이 전혀 다른 distribution을 가졌다면 모델과 예측 사이의 gap이 발생한다. 따라서 이를 보완하기 위해, Semi-supervised learning(준지도 학습)을 사용하기도 한다.

- 정리하자면, Supervised learning은 Training과 Testing 샘플이 유사한 Statistical properties 가질 때 진행하자.






#아래 내용을 참고했습니다

1) Libbrecht, M. W., & Noble, W. S. (2015). Machine learning applications in genetics and genomics. Nature Reviews Genetics, 16(6), 321.

2) https://ko.wikipedia.org/wiki/%EC%A7%80%EB%8F%84_%ED%95%99%EC%8A%B5





지도 학습(Supervised learning) End.

BioinformaticsAndMe

+ Recent posts