Gene Prediction & Machine Learning Start.
BioinformaticsAndMe
Genomics 에서 머신러닝의 활발한 사용 중 하나인
Gene Prediction(Gene Finding) 을 다뤄보겠다.
유전자 예측을 위해, 우선..
'은닉 마르코프 모델(Hidden Markov Model; HMM)' 에 대한 이해가 필요하므로,
이전 칼럼의 'Hidden Markov Model (은닉 마르코프 모델)' 를 참고하길 바란다.
1. Gene structure 의 이해
- 위 그림은 진핵생물(eukaryote)이 가지는 일반적인 Gene structure이다.
- 크게 exon과 intron으로 구성되어있으며, 인트론은 GT로 시작하여 AG로 끝난다.
- RNA splicing이 진행될 때 저 GT와 AG를 각각 doner와 acceptor로 인지하여 인트론을 잘라낸다.
- Gene prediction을 하고자 하는 Genome 특성을 적절한 transition probability와 emission probability table로 만들어 놓는 것이 정확한 gene finding의 핵심 요소가 되겠다.
- 이 말은 곧, 연구 중인 샘플 종의 특징을 충분히 학습한 training set이 필요하다는 얘기다.
2. Hidden Markov Model 적용
- 위 그림의 transition probability table 과 emission probability table을 살펴보자.
- transition probability는 현재 state에서 다음 state로 바뀔 확률로, exon->exon이 될 확률은 90%, exon->5'SS(Splicing Site)이 될 확률은 10%이다.
- exon->intron이 될 확률은 0%인데, 위에 gene structure를 살펴보면 exon에서 intron으로 넘어갈 때 5'SS가 항상나타나므로, 엑손 다음에 인트론이 바로 나올 수 없다는 생물학적 지식에 근거한 것이다.
- emission probability는 특정 state에서 우리가 볼 수 있는 관찰값이다.
- 우리가 관찰할 수 있는 A, G, T, C 뉴클레오타이드의 특정 영역이 엑손? 인트론? splice site? (Hidden)인지 예측하여, 하나의 유전자를 구분짓는 것이 Gene prediction에서 HMM을 활용하는 방식이다.
- emission probability table에서 exon state일 때 A,G,T,C,가 관찰될 확률이 25%로 동일하다 (샘플종 혹 타겟유전자에 따라 GC contents가 높은 경우에는 G, C에 더 높은 가중치를 메기기도 한다).
- 5'SS에서 G는 consensus sequence이므로 G가 나올 확률이 100%이다 (역시나 이 수치가 고정된 것은 아니다).
#consensus sequence: 진화과정 중 돌연변이 등의 변화를 겪지 않고 잘 보존되어 있는 염기배열
- 진핵생물에서 인트론 부위는 GC contents의 비율이 AT에 비해 상대적으로 적다 (AT가 나올 확률이 더 높다).
- 아래 그림은 위 테이블의 probability 값을 hidden state path에 따라 정리한 것이다. 우리가 보통 머신러닝을 통한 Gene prediction 분석에서 흔히 볼 수 있는 그림이다.
- 명심해야할 점은 'transition probability 와 emission probability' 는 연구자가 보유한 training set 에서 산출되는 것이므로, 머신러닝에서 저 두 확률분포를 얼마나 잘 트레이닝하냐 여부가 정확한 gene prediction의 키포인트겠다.
3. HMM을 이용한 Splicing site 예측
- 자 이제 'CTTGACGCAGAGTCA' 의 시퀀스가 관찰됐을때, 가장 적합해보이는 엑손(청록색), 5`SS(주황색), 인트론(보라색)의 State path를 예측해보자.
- 계산하는 방법은 각 State에서 가질 수 있는 모든 Emission probability와 Transition probability를 곱하는 것이다.
- 위 그림에서처럼 계산한다면 첫번째 state path의 확률값은 4.519e-13 이다. 이런식으로 모든 state path의 확률값을 계산해준다.
- 결론적으로 가장 높은 state path의 확률값을 가진 경로가 주어진 시퀀스의 gene structure라 할 수 있겠다.
- 4.519e-13의 확률 값을 가진 첫번째 state path가 가장 높다면, 'CTTGACGCAGAGTCA'은 'CTT(엑손)G(5`SS)ACGCAGAGTCA(인트론)' 의 유전자 구조를 가지고 있음을 예측할 수 있다.
- 아래 그림의 방식처럼, 특정 state path의 likelihood 값도 구할 수 있다.
마무리하며...
HMM을 이용한 gene prediction을 설명하면서, 엑손-5`SS-인트론에만 초점을 두고 설명했다 (실제 유전체 분야에서 HMM 기반 gene prediction을 설명할 때 대부분 사용하는 예제이다).
프로모터부터 PolyAsite까지 같은 방식을 적용할 수 있겠다. 또한, 대부분의 유전체 분석 툴들이 앞서 설명한 HMM 알고리즘에 기반한 것들이 대다수이다.
Gene prediction 이외에도 protein family를 예측하는 gene annotation 분야에도 자주 쓰인다.
(아 요즘 너무 덥다...ㅠㅠ)
Gene Prediction & Machine Learning End.
BioinformaticsAndMe