[GWAS] Imputation Start.

BioinformaticsAndMe

Imputation 은 GWAS 분석에서 자주 사용되는 개념이다.
Imputation 이란?
유전학에서의 Imputation는 관찰되지 않은 Genotype을 통계적 기법에 의해 추론해내는 것
으로 이해하면 되겠다.
그렇다면 왜 GWAS에서 Imputation이 필요하느냐?
대부분의 SNP Chip 들이 50~100만개 정도의 probe를 가지고 있고, 이 숫자는
30억 염기를 가지고 있는 사람에게 턱없이 적은 숫자이다 (1.5%정도인 Exon 영역만 고려하여도 아주 적다).
하지만 염색체는 단일 염기보다 블록 단위의 형태로 유전이 되는 Linkage Disequilibrium(LD, 연관비평형)의 특징을 갖고 있기 때문에,



적절한 reference만 존재한다면, GWAS 결과의 halpotype을 유추할 수 있다.
사실, LD 나 Hapotype 에 대해 깊게 들어가면 칼럼이 길어지므로 다음번에 구체적으로 다루기로 하며,
간단히 정리하자면, SNP chip calling 결과에서 non-SNP(아예 probe 정보가 chip에 없었던) position의 allele을 유추할 수 있다.
아래 그림을 보면 이해하기가 쉽겠다. 

#Impuation을 하는 목적을 가볍게 정리해보면,
1. SNP chip calling을 했는데 missing value가 너무 많다.
2. 위에서 말한 것처럼 보고싶은 영역을 확대하고 싶다.
3. Imputation을 통해 N 수를 늘려서 통계 파워를 높이고 싶다.
4. 다른 스터디와 합쳐서 분석해보고 싶다 (Meta analysis).
등이 되겠다.
참고로..
아래 그림은 Plos one 논문으로, SNP chip 간의 공유하는 SNP들을 테이블 형태로 나타내었다.

Meta 분석을 하는데, Chip 사이의 공유하는 SNP이 거의 없다면... Imputation에서 상당한 스킬?이  필요하지 싶다.

#Imputation의 과정은 크게 2가지로 나뉜다.
(물론 아래 2가지를 한번의 command로 실행할 수 있지만 run time이 굉장히 길다)
1. Phasing
- 해당 서열이 부모 중 누구에게서 물려 받은건지 구분하는 작업 (부모 haplotype 정보가 있으면 매우 유리하지만, 없을 때 추정하는 알고리즘 존재).
- SHAPEIT2 추천
2. Imputation
- Pre-Phasing이 끝나고 Imputation이 과정을 수행 (여러 통계적 기법이 존재).
- IMPUTE2 추천
위에서 추천한 툴들은 일반적으로 많이 사용되는 것으로 기호에 따라 다양한 툴을 사용해도 좋다.
예를 들어, IMPUTE보단 정확도가 다소 떨어지지만, 빠른 속도를 위해 BEAGLE을 사용할 수도 있다.
사실 Imputation 과정이 본인이 생각하기에 어려운 분석 중 하나라 생각되며..
스크립트를 효율적으로 구성하지 못하면 굉장한 run time이 발생한다 (Imputation 자체가 오래 걸림).
아는 선생님께서는 한달이 걸렸다고 한다..



마무리하며..

Imputation 과정에서 가장 신경써야할 부분 중 하나는 '어떤 Reference를 사용할 것인가?' 이다.

일반적으로 HAPMAP과 1000G이 사용되고 있으며, 그나마 1000G에 중국과 일본의 population이 들어가 있어,

한국인 GWAS 분석에서 적합한 reference라 볼 수 있겠다.

그러나,, 한국인 GWAS 분석에서 'Korean reference'를 사용해야하는 건 아주 당연하다.

질병관리본부에서 'KRGDB(Korean Reference Genome) project'로 한국인으로 구성된 ref가 있다.

(http://152.99.75.168/KRGDB/menuPages/intro.jsp) - raw 데이터 사용하려면 따로 신청해야 하는듯..

끝.



[GWAS] Imputation End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[NGS Alignment] BWT 알고리즘  (0) 2018.07.06

+ Recent posts