[NGS] RNA sequencing Start.
BioinformaticsAndMe
1. RNA-sequencing
→ RNA-seq: RNA-Seq은 transcriptome을 분석하는 NGS 기술로 샘플에서 발현되는 RNA 서열을 시퀀싱.
→ DEG, Novel transcript, Fusion 분석 등에 사용.
2. RNA-seq Quality Control
- RNAseq에서 QC 과정은 중요하며, 몇 가지 Checkpoint를 집중적으로 살펴야하겠다.
① Raw read quality control
→ 염기서열 quality, GC content, adaptor 유무, 지나친 k-mer 존재 유무, duplicated read 등을 검사.
→ 위 QC 에서 30% 이상의 불일치를 나타내는 outlier 샘플은 제외하기를 권장.
② Read alignment
→ 보통 70~90%의 RNA-seq read가 사람 genome에 mapping 되며, 이 중 일부가 multi-mapping될 것으로 예상.
③ Quantification
→ Transcript 정량값이 계산된 후, GC content와 유전자 길이의 bias를 고려해 normalization.
④ Reproducibility
→ 반복 실험과 batch effect 확인을 위해 재현 가능성을 측정.
→ Technical replicate의 재현 가능성 (r2>0.9)은 보통 높지만, biological replicate는 실험 간 이질성으로 인해 정해진 기준이 없음.
3. RNAseq Transcript identification 과정
① De novo transcript reconstruction
- 레퍼런스 genome이 존재하지 않거나 불완전한 경우, RNA-seq read를 input으로 SOAP, Trinity 등의 프로그램을 이용해 새로 transcriptome을 조립.
② Mapping to a reference
- 레퍼런스 genome에 mapping하는 것은 novel gene 또는 transcript identification을 가능하게 함.
- splice junction에 존재하는 read를 mapping하기 위해, gapped or spliced mapper를 필요로 함.
▶ RNAseq mapper로 흔하게 사용되는 TopHat은 두 단계의 과정으로 진행되는데,
먼저 exon에 존재하는 splicing 되지 않은 read가 mapping 되고
이후 mapping되지 않은 read들을 각각 split하여 다시 exon junction에 mapping을 시도.
▶ GSNAP, PALMapeer, MapSplic: SNP나 indel 발견에 최적화된 mapper.
▶ STAR, MapSplice: non-canonical splice junction에 특화된 mapper.
▶ Mapping 중 중요한 parameter : strandedness / 허용하는 mismatch 수 / read의 길이 / read의 type / sequence 길이.
③ Transcript quantification
- RNA-seq에서 gene 또는 transcript 발현을 측정 (기본이 되는 값은 transcript에 mapping된 read의 수).
- 아래는 RNAseq의 readcount 지표이다. raw count에서부터 normalized count까지 다양하게 존재한다.
▶ Quantification은 mapped read를 모으는 HTSeq-count 또는 featureCounts 사용.
▶ RPKM : 샘플 내 feature의 길이와 라이브러리 크기에 의한 효과를 보정.
▶ FPKM : RPKM에서 paired-end를 하나의 fragment라 인식하여 보정.
▶ TPM : 위와 비슷하지만 RNA 샘플 사이에서 transcript 길이 분포까지 포함한 개념.
▶ TMM : TPM과 마찬가지로 비교하고자 하는 RNA pools의 다른 조성에 대해 보정.
#아래 논문은 RNA-seq에서 사용되는 Normalized value를 비교한 내용이다.
https://academic.oup.com/bib/article/14/6/671/189645
④ Differential gene expression analysis
- RNA-seq read count에 기반한 Poisson 또는 negative binomial 확률 분포를 통해 발현 차이 분석.
▶ edgeR : input으로 raw read count와 가능한 bias의 원인을 통해 통계 모델을 만들어 normalization과 발현 차이 분석을 연계.
▶ DESeq2 : edgeR과 같이 negative binomial 분포로 고유 normalization 방법을 제공.
▶ baySeq, EBSeq : negative binomial model에 기반하고 있는 Bayesian 방식을 사용하여, 실험 그룹 간의 차이를 표현하고 각 유전자의 확률을 계산.
[NGS] RNA sequencing End.
BioinformaticsAndMe
'Technology' 카테고리의 다른 글
[NGS] Targeted gene panel (0) | 2018.08.19 |
---|---|
[NGS] Target Enrichment(Capture) assay (0) | 2018.08.14 |
[NGS] Resequencing (0) | 2018.08.12 |
[NGS] Next Generation Sequencing (0) | 2018.08.11 |
[Blockchain] 블록체인과 헬스케어 (2) (0) | 2018.07.18 |