[NGS] Resequencing Start.

BioinformaticsAndMe




1. Resequencing (Reference sequencing)

- 종마다 이미 알려진 유전체(reference genome)를 기반으로 연구 샘플 유전체와의 비교를 통해 새로운 유전체 서열을 완성하는 방법.

- SNP, InDel 뿐만 아니라 CNV(Copy Number Variation), SV(Structural Variation)까지 분석 가능


- Denovo assembly (Denovo seqeuncing): reference genome X. 지금까지 밝혀지지 않은 미생물이나 동식물의 전체 유전체 정보를 알아내는 방법







2. Resequencing 과정

① Raw data Quality control

→ FastqQC로 시퀀싱 데이터의 퀄리티를 확인하고, Adaptor trimming 과정을 통해 Index 정보를 잘라냄 (보통 전체데이터의 1% 손실).

→ 가장 많이 사용되는 일루미나 시퀀싱은 형광물질을 자르고 붙이는 과정의 효율이 시퀀싱 후반부에 갈수록 떨어짐.



② Read Mapping

→ bwa, bowtie와 같은 aligner를 이용해 reference genome에 NGS read를 매핑하는 과정으로, SAM 혹은 BAM 파일이 생성 된다.

→ a) Reference indexing

→ b) Alignment

→ c) SAM file



③ Sorting and Add Read Group

→ Mapping된 Read들의 순서를 정리하고 샘플의 ID 및 태그정보를 추가하는 과정.


④ Remove Duplicates

→ Library 제작과정 중 진행되는 PCR 증폭 중에 생성된 중복 Read pair를 제거하는 과정.


⑤ Base Quality Recalibration

→ base calling 과정에서 생산된 raw Phred 스코어는 정확하지 않기 때문에, 여러 covariate를 이용하여 재조정.



⑥ Variant calling

→ 매핑 정보로 부터 염기변이 정보를 추출 (GATK, Varscan 등).

→ GATK에는 Calling method로 Haplotypecaller (정확/느림) 과 UnifiedGenotyper (부정확/빠름) 가 존재

→ 했지만, GATK4로 넘어오면서 UnifiedGenotyper 활용성이 떨어진다고 판단하여 사라짐.






 3. 시퀀싱에서 염두에 둬야할 사항

- 시퀀싱 과정에 PCR이 포함되어 있다면, 데이터의 GC contents (Human, 40%)가 매우 중요.

- GC contents에 따라 PCR 효율이 달라지기 때문에 결과에 bias가 생길 수 있음.

- 해당 샘플의 높은 GC contents를 인지하고 있다면, PCR-free 키트 활용을 고려.

- Read Length (Specification) vs  Read Count (Quantification)

Read Length : Structure variation, Gene fusion에서 중요.

Read Count : Sequence variation, DEG 분석에서 중요.





[NGS] Resequencing End.

BioinformaticsAndMe

+ Recent posts