[NGS] Resequencing Start.
BioinformaticsAndMe
1. Resequencing (Reference sequencing)
- 종마다 이미 알려진 유전체(reference genome)를 기반으로 연구 샘플 유전체와의 비교를 통해 새로운 유전체 서열을 완성하는 방법.
- SNP, InDel 뿐만 아니라 CNV(Copy Number Variation), SV(Structural Variation)까지 분석 가능
- Denovo assembly (Denovo seqeuncing): reference genome X. 지금까지 밝혀지지 않은 미생물이나 동식물의 전체 유전체 정보를 알아내는 방법
2. Resequencing 과정
① Raw data Quality control
→ FastqQC로 시퀀싱 데이터의 퀄리티를 확인하고, Adaptor trimming 과정을 통해 Index 정보를 잘라냄 (보통 전체데이터의 1% 손실).
→ 가장 많이 사용되는 일루미나 시퀀싱은 형광물질을 자르고 붙이는 과정의 효율이 시퀀싱 후반부에 갈수록 떨어짐.
② Read Mapping
→ bwa, bowtie와 같은 aligner를 이용해 reference genome에 NGS read를 매핑하는 과정으로, SAM 혹은 BAM 파일이 생성 된다.
→ a) Reference indexing
→ b) Alignment
→ c) SAM file
③ Sorting and Add Read Group
→ Mapping된 Read들의 순서를 정리하고 샘플의 ID 및 태그정보를 추가하는 과정.
④ Remove Duplicates
→ Library 제작과정 중 진행되는 PCR 증폭 중에 생성된 중복 Read pair를 제거하는 과정.
⑤ Base Quality Recalibration
→ base calling 과정에서 생산된 raw Phred 스코어는 정확하지 않기 때문에, 여러 covariate를 이용하여 재조정.
⑥ Variant calling
→ 매핑 정보로 부터 염기변이 정보를 추출 (GATK, Varscan 등).
→ GATK에는 Calling method로 Haplotypecaller (정확/느림) 과 UnifiedGenotyper (부정확/빠름) 가 존재
→ 했지만, GATK4로 넘어오면서 UnifiedGenotyper 활용성이 떨어진다고 판단하여 사라짐.
3. 시퀀싱에서 염두에 둬야할 사항
- 시퀀싱 과정에 PCR이 포함되어 있다면, 데이터의 GC contents (Human, 40%)가 매우 중요.
- GC contents에 따라 PCR 효율이 달라지기 때문에 결과에 bias가 생길 수 있음.
- 해당 샘플의 높은 GC contents를 인지하고 있다면, PCR-free 키트 활용을 고려.
- Read Length (Specification) vs Read Count (Quantification)
▶ Read Length : Structure variation, Gene fusion에서 중요.
▶ Read Count : Sequence variation, DEG 분석에서 중요.
[NGS] Resequencing End.
BioinformaticsAndMe
'Technology' 카테고리의 다른 글
[NGS] Target Enrichment(Capture) assay (0) | 2018.08.14 |
---|---|
[NGS] RNA sequencing (0) | 2018.08.12 |
[NGS] Next Generation Sequencing (0) | 2018.08.11 |
[Blockchain] 블록체인과 헬스케어 (2) (0) | 2018.07.18 |
[Blockchain] 블록체인과 헬스케어 (1) (1) | 2018.07.18 |