[PCR] 중합효소 연쇄반응 Start

BioinformaticsAndMe








1. Polymerase Chain Reaction (중합효소 연쇄반응)


: Polymerase Chain Reaction(PCR)은 타겟 DNA 부분을 복제하고 증폭시키는 분자생물학 기술

: 지극히 미량의 DNA 용액에서 연구자가 원하는 특정 DNA 단편을 대량으로 증폭하는 실험법

: DNA 복제 과정을 시험관에서 구현 가능

: 범죄 혈흔, 멸종 생물, 희귀질환 분석 등에 활용





2. PCR 구성 요소


ㄱ) Taq DNA polymerase(Taq 중합효소): Thermophilus aquaticus에서 추출된 고온 내성의 DNA 합성효소

ㄴ) Primer(프라이머): DNA 복제가 시작되도록 3`-OH를 제공하는 상보적인 외가닥의 DNA  (DNA 프라이머)

ㄷ) dNTP: 3개의 인산이 결합된 Deoxyribonucleotide로 DNA 합성의 재료 (dATP,dTTP,dGTP,dCTP)

ㄹ) Buffer(완충용액): 효소 활성에 필요한 물질 제공

ㅁ) DNA: 증폭하려는 DNA (이중가닥, 외가닥 모두 가능)





3. PCR 과정


1) Denaturing(변성): 이중가닥DNA를 외가닥DNA로 벌림 (94~95도)

2) Annealing(결합): DNA 프라이머를 상보적 외가닥서열에 붙임 (50~56도)

    재결합온도가 결합 특이성 커짐

    GC contents가 50% 정도의 프라이머를 사용하는 것이 바람직

    두 프라이머가 재결합하는 온도를 같게 해야 함

3) Extending(신장): 새로운 DNA 가닥을 합성 (72도)

    모든 과정을 보통 20∼40회 반복하면서 타겟하는 DNA 부분을 증폭함





4. PCR 활용


a. 선택적 유전자 증폭

- 특정 DNA 부분을 증폭시킴으로써 DNA 조각을 분리

- 작은 DNA 조각으로 대량 DNA조각들을 얻을 수 있어 DNA 클로닝에 이용


b. DNA의 증폭과 정량화

- 타겟 증폭으로 극미량 샘플의 DNA 서열 파악 가능

- 고대 맘모스 등의 오래된 DNA 정량화 가능


c. 질병의 진단

- 백혈병이나 겸상적혈구빈혈증의 진단에서 특정 악성 세포 위치를 정확히 파악 가능







# PCR 실험 영상









#Reference
1) https://ko.wikipedia.org/wiki/%EC%A4%91%ED%95%A9%ED%9A%A8%EC%86%8C_%EC%97%B0%EC%87%84_%EB%B0%98%EC%9D%91
2) https://namu.wiki/w/PCR
3) https://socratic.org/questions/how-is-the-polymerase-chain-reaction-useful-in-dna-fingerprinting
4) https://www.pinterest.co.kr/pin/308285536990020283/
5) https://www.yourgenome.org/facts/what-is-pcr-polymerase-chain-reaction
6) http://www.biologydiscussion.com/biotechnology/molecular-basis-of-disease-diagnosis-and-treatment-with-diagram/17514




[PCR] 중합효소 연쇄반응 End

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[DNA sequencing] 생어 염기서열 분석  (0) 2019.10.28
[Western blotting] 웨스턴 블로팅  (0) 2019.10.22
[Northern blotting] 노던 블로팅  (0) 2019.10.09
[Southern blotting] 서던 블로팅  (0) 2019.10.01
[Genotyping] SNP Array  (0) 2019.09.25

[Northern blotting] 노던 블로팅 Start

BioinformaticsAndMe






Northern blot (노던 블롯)


: 겔 전기영동으로 분획된 RNA 단편을 membrane에 옮긴 후, 특정 염기서열을 지닌 단편을 검출하는 기술

: 노던 블롯은 서던 블롯과 유사한 이름으로 명명(1977) 

→ 이름이 의미하는 동서남북 방향과 관계 없음

→ 서던 블롯을 응용해 특정 mRNA 발현 정도를 찾아내는 방법이었기에 유사하게 명명

: 분자 생물학에서 시료의 특정 RNA(mRNA) 동정으로 유전자 발현을 연구하는 방법

: 샘플에서 특정 mRNA 서열의 존재 여부, 양, 절편 크기 등을 확인 가능







Northern blot 실험 과정


1. 세포들에서 RNA 분리

2. RNA를 변성시켜 단일가닥으로 유지하기 위해 포름알데히드(formaldehyde) 처리

3. 탐침과 RNA가 결합 온도를 낮추기 위해 포름아미드(formamide) 처리

*탐침과 RNA가 결합할 때 온도가 높으면 불안정한 RNA는 쉽게 분해

4. 추출한 RNA를 아가로스(Agarose) 겔에 전기영동 한 후, RNA 조각을 크기 별로 분리

5. 모세관 현상으로 겔에서 NC(Nitrocellulose) 필터로 RNA 전이

6. NC 필터에 자외선을 쪼여 핵산과 NC 필터 사이에 교차 결합을 형성

7. 탐지하고자 하는 RNA와 상보적인 단일나선 DNA or RNA 탐침(probe) 제조

*probe: 방사선동위원소나 효소, 혹은 발광 및 발색 반응할 수 있는 핵산조각

8. 여과지와 탐침을 충분한 시간동안 혼성화 진행

*탐침은 자신과 상보적인 염기서열을 가진 RNA에 결합

*혼성화(hybridization): 염색체에 탐침 DNA를 부착시키는 과정

9. X선 필름에 여과지를 감광시켜 특정 RNA 존재 확인






# 노던 블로팅 실험 영상








#Reference
1) https://www.researchgate.net/figure/General-schematic-of-Northern-blotting_fig1_318305214
2) https://ko.wikipedia.org/wiki/%EB%85%B8%EB%8D%98_%EB%B8%94%EB%9E%8F
3) https://terms.naver.com/entry.nhn?docId=5569294&cid=61233&categoryId=61233
4) https://www.youtube.com/watch?v=zfvihIzYyAc




[Northern blotting] 노던 블로팅 End

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[Western blotting] 웨스턴 블로팅  (0) 2019.10.22
[PCR] 중합효소 연쇄반응  (0) 2019.10.14
[Southern blotting] 서던 블로팅  (0) 2019.10.01
[Genotyping] SNP Array  (0) 2019.09.25
[NGS] Epigenetic sequencing  (0) 2019.05.26

[Southern blotting] 서던 블로팅 Start

BioinformaticsAndMe






Southern blot (서던 블롯)

: 겔 전기영동으로 분획된 DNA 단편을 membrane에 옮긴 후, 특정 염기서열을 지닌 단편을 검출하는 기술

: 서던(E. Southern)에 의해 개발 (1975)

: 분자 생물학에서 DNA 시료의 특정 DNA 서열을 찾기위한 방법

: 샘플에서 특정 DNA 서열의 존재 여부, DNA 양, 절편 크기 등을 확인 가능





Southern blot 실험 과정

1. 세포들에서 DNA 분리

2. 추출된 DNA를 제한효소로 절단

3. 아가로스(Agarose) 겔에 전기영동 한 후, DNA 조각을 크기별로 분리

4. DNA를 알칼리로 단일 가닥 상태로 만듦

*DNA 길이가 짧을수록 NC필터로 전이 잘됨

5. 모세관 현상으로 겔에서 NC(Nitrocellulose) 필터로 DNA 전이

6. NC 필터에 자외선을 쪼여 핵산과 NC 필터 사이에 교차 결합을 형성

7. 탐지하고자 하는 DNA와 상보적인 DNA 탐침(probe) 제조

*probe: 방사선동위원소나 효소, 혹은 발광 및 발색 반응할 수 있는 핵산조각

8. 여과지와 탐침을 충분한 시간동안 혼성화 진행

*관심있는 DNA절편과 탐침이 다시 이중나선을 형성

*혼성화(hybridization): 염색체에 탐침 DNA를 부착시키는 과정

9. X선 필름에 여과지를 감광시켜 특정 DNA 존재 확인





#서던 블로팅 실험 영상







#Reference
1) https://ko.wikipedia.org/wiki/%EC%84%9C%EB%8D%98_%EB%B8%94%EB%9E%8F
2) https://terms.naver.com/entry.nhn?docId=380135&cid=50328&categoryId=50328
3) https://bio.libretexts.org/Bookshelves/Genetics/Book%3A_Online_Open_Genetics_(Nickle_and_Barrette-Ng)/08%3A_Techniques_of_Molecular_Genetics/8.6%3A__DNA_Analysis%3A_Blotting_and_Hybridization
4) https://www.youtube.com/watch?v=GPVf_AWMYZ4





[Southern blotting] 서던 블로팅 End

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[PCR] 중합효소 연쇄반응  (0) 2019.10.14
[Northern blotting] 노던 블로팅  (0) 2019.10.09
[Genotyping] SNP Array  (0) 2019.09.25
[NGS] Epigenetic sequencing  (0) 2019.05.26
[NGS] Targeted gene panel  (0) 2018.08.19

[Genotyping] SNP Array Start

BioinformaticsAndMe






SNP array

: 유전변이형을 알아내는 실험 방법

>한 개의 SNP genotyping - TaqMan, SNapShot, MassArray

>대규모의 SNP genotyping - SNP array (Illumina chip, Affymetrix chip)


#SNP(Single Nucleotide Polymorphism): DNA 서열에서 하나의 염기서열(A,T,G,C)의 차이를 보이는 변이


SNP Chip array는 NGS에 밀려 예전만큼 보편적이지 않지만,

코호트 스터디나 유전자분석 서비스 등에서 여전히 상용되고 있음

현재, 일반적으로 상용화된 SNP Chip을 판매하는 두 업체는 Illumina와 Affymetrix (Affy는 최근 Thermofisher에 흡수)


두 업체 내에서도 SNP Chip의 여러 버전이 있으므로 연구 디자인 과정에 주의할 필요가 있음
최근에는 아래 두 제품을 밀고 있는 것으로 보임
*Illumina: GSA chip (Global Screening Array)
*Thermofisher: PMRA chip (Precision Medicine Research Array)






#아래는 Du Y et al (2017) 논문에 제시된 SNP Chip 비교 내용이다
: 회색 표시는 해당 칩에서 Genotyping 할 수 있는 SNP 개수
: 회색 대각선을 기준으로 우측 상단부가 서로 다른 칩 사이에서 교차하는 SNP 개수
*여기서 교차한다는 의미는 유전체 상에서 같은 Position을 본다는 의미
*예를 들어, Axiom PMRA와 Illumina GSA 사이는 128,503개의 SNP가 겹침





#GSA 와 PMRA에 담긴 SNP들은 7가지의 특성을 갖는다
(1) Genome-wide imputation grid

(2) Global population specific variants
기존 SNP는 서양인에 집중되어 있었는데, 아시아인을 포함해 여러 인구집단에서 활용할 수 있는 SNP를 업데이트

(3) Variants from GWAS Catalog and common cancer variants
GWAS catalog 변이와 암 관련 변이들을 포함

(4) Rare functional variants from ClinVAR, ExAC consortium
Clinvar, ExAC 기반 희귀질환 변이들을 포함

(5) Variants with pharmacogenomic effects including those from PharmGKB databases
PhargmGKB 약물유전체학 기반 변이들을 포함

(6) HLA region and CNV variants
HLA(human leukocyte antigen) 영역의 변이들과 CNV 변이들을 포함
*참고: HLA를 통해 면역관련 인자와 암 사이의 연관성을 밝히는 연구들이 존재

(7) Fingerprinting variants
사람의 신원확인을 위해 사용되는 변이들을 포함









마무리하며..
하나의 칩으로 볼 수 있는 SNP 개수가 많으면 좋겠지만,
무작정 많은 것이 제일 좋은 SNP chip은 아니다.
예를 들어, 100만개를 볼 수 있는 SNP chip이 있는데,
절반이 missing value거나 정확도가 매우 떨어진다면 문제이다.
SNP Chip 연구는 일반적으로 대규모로 수행되기에, SNP개수/정확도/가격/TAT 등 고려할 요소가 많다.




#Reference
1) https://www.futurelearn.com/courses/the-genomics-era/0/steps/4904
2) https://ko.wikipedia.org/wiki/%EB%8B%A8%EC%9D%BC%EC%97%BC%EA%B8%B0_%EB%8B%A4%ED%98%95%EC%84%B1
3) https://www.illumina.com/content/dam/illumina-marketing/documents/products/datasheets/infinium-commercial-gsa-data-sheet-370-2016-016.pdf
4) https://pdfs.semanticscholar.org/0f24/906e9daf5477088c2edf18b646bf79409cf3.pdf
5) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5604942/




[Genotyping] SNP Array End

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[Northern blotting] 노던 블로팅  (0) 2019.10.09
[Southern blotting] 서던 블로팅  (0) 2019.10.01
[NGS] Epigenetic sequencing  (0) 2019.05.26
[NGS] Targeted gene panel  (0) 2018.08.19
[NGS] Target Enrichment(Capture) assay  (0) 2018.08.14

[NGS] Epigenetic sequencing Start.

BioinformaticsAndMe




1. Epigenetic Symphony

-모든 세포들이 대부분 동일한 유전체를 갖고 있지만, 각기 다른 후성유전체 조절에 의해  다양성을 보인다는 개념

-많은 유전자들은 유전자들을 증폭시키거나 억제시킬 수 있는 후성유전적 인자들에 의해 조절

          →Histone modification, DNA methylation, Acetylation, Promoter, Enhancer, Insulator

https://onlinelibrary.wiley.com/doi/pdf/10.1111/adj.12155





2. 후성유전학 시퀀싱 종류

-MNase-seq: 뉴클레오좀 위치뿐만 아니라 RNA 중합효소 II의 유전체 상 위치까지 매핑

-DNase-seq: DNA 분해효소 I에 의해 크로마틴의 개방부위 확인 가능

-ATAC-seq: transposon들을 이용하여 크로마틴의 개방부위를 찾아줌

-BS-seq, DamID:  DNA methylation 측정




3. Single-cell Epigenomics

-기존 후성유전학 연구는 bulk 수준에서 수행되어 왔지만, 현재는 기술 발달로 인해 

 single cell 레벨에서 세포 타입에 따라 후성유전학적 특징들을 확인할 수 있음

-SSBseq, ssChIP,-seq, ssATAC-seq 등 single cell의 epigenome 분석 기술 발달





[NGS] Epigenetic sequencing End.

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[Southern blotting] 서던 블로팅  (0) 2019.10.01
[Genotyping] SNP Array  (0) 2019.09.25
[NGS] Targeted gene panel  (0) 2018.08.19
[NGS] Target Enrichment(Capture) assay  (0) 2018.08.14
[NGS] RNA sequencing  (0) 2018.08.12

[NGS] Targeted gene panel Start.

BioinformaticsAndMe




1. Targeted gene panel (Targeted sequencing)

- Genome 중에서 타겟 영역만을 Capture할 수 있도록 Customized kit을 제작을 통해 원하는 영역만을 선택적으로 시퀀싱하는 방법.




2. Targeted sequencing flow

- Targeted sequencing이 특정 영역을 집어내 증폭하는 것이 목적이기에 Amplicon(엠플리콘) sequencing으로 진행된다.

- 타겟 시퀀싱에서 ROI(Region of Interest)를 정확하게 집어내는 primer(프라이머)를 잘 제작하는게 실험의 관건이다. 


#엠플리콘 enrichment 참조

http://bioinformaticsandme.tistory.com/66?category=808295







3. Targeted  vs  WES  vs  WGS 비교

- Targeted panel

40~400 genes, High coverage, 매우 좋은 정확도.

특정한 질병 관련 variant나 gene 동정에 특화.

평균 2,000~10,000x

높은 depths에 근거한 rare variant 동정.

관심 있는 유전체 부위 Customized design 가능.


- Whole exome(1%)

22,000 genes, Intermediate coverage, 좋은 정확도.

모든 exon을 타겟 – 원하는 유전자만 타겟 할 수 없음.

평균 100~150x

Customized design 불가


- Whole genome

All genes, lower coverage, 낮은 정확도.


#패널 디자인 자체가 어떤 새로운 변이를 발견하려는 목적보다는, 이미 알려진 유전자 변이를 확실하고 정확하게 동정하기 위함이다.





[NGS] Targeted gene panel End.

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[Genotyping] SNP Array  (0) 2019.09.25
[NGS] Epigenetic sequencing  (0) 2019.05.26
[NGS] Target Enrichment(Capture) assay  (0) 2018.08.14
[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12

[NGS] RNA sequencing Start.

BioinformaticsAndMe




1. Target Enrichment(Capture) assay

- 시퀀싱 하기 전 특정 유전자 또는 기타 관심부위를 DNA 또는 cDNA 라이브러리로부터 분리 또는 그 빈도를 증가시키기 위한 방법.

- 간단히 표현하자면, DNA는 너무 작아서 시퀀싱하기 어렵기 때문에 증폭이라는 과정을 통해 시퀀싱할 정도로 사이즈를 불린다.



# Target enrichment 과정이 NGS에서 어느 순서에 존재하느냐나는 아래 그림을 참고하자.




# Target enrichment 방법에는 주로 Amplicon(A: 엠플리콘)과 Hybridization(B: 하이브) 2가지가 흔하게 사용된다.


2. Amplicon-based assay (위 A그림)

→ PCR 증폭과정을 통해, 타깃 유전자 부분을 풍부하게(enrichment) 하는 방식.

→ forward primer와 reverse primer가 결합하는 위치 사이의 공간이 증폭.

→ 일반적으로 엑손 하나 혹은 하나의 엑손을 두 개로 타겟함.

→ 타깃 범위 혹은 유전자의 수/사이즈가 늘어날수록 primer 디자인이 쉽지 않음.

Turnaround time이 좀 더 짧고, 상대적으로 적은 양의 input DNA를 필요.

→ 작은 수의 유전자 패널에 대한 target sequencing에 유용하지만, 패널의 유전자 수가 많아지거나 exome sequencing을 수행하는 경우에는 비효과적.

→ 패널사이즈↓

3. Hybridization capture-based assay (위 B그림)

→ 혼성화와 Biotin-Avidin 결합으로 골라내는 방식.

→ Hybridization: Probe가 상보적인 염기서열을 갖고 있는 DNA fragment에 결합.

→ Capture: Probe와 DNA fragment 혼성체는 magnetic bead에 채집

→ Enrichment: Magnetic은 자기장을 형성하여, probe 결합 fragment만을 골라냄.

→ 작은 사이즈의 target 부위에서부터 whole exome과 같이 큰 사이즈 부위까지 유효한 검사를 가능하게 하는 방식.

Amplicon 방식에 비해 검사 시간이 더 길고 더 많은 양의 input DNA가 필요.

→ 패널사이즈↑



CancerPanel (암패널)에 경우 엠플리콘 방식을 사용하는데,

엠플리콘의 높은 정확도와 빠른 Turnaround time의 특징들은 Customized panel 제작에 필수적이다.





#아래 그림 역시 엠플리콘과 하이브를 비교한 그림이다.



NGS 파이프라인 과정에서 Amplicon 데이터를 Picard를 사용해 De-duplication(중복리드없애주는과정)하는 실수를 범할 때가 있다.

엠플리콘 방식의 특징상 특정 엑손 영역 부위를 반복적으로 시퀀싱하도록 제작된 것이므로 리드중복의 오류라 볼 수 없다.

우리가 흔하게 알고 있는 일반적인 NGS 파이프라인은 일루미나 Hybridization에 기반하여 만든 것이기에,

엠플리콘 데이터 분석에서는 Tool이나 Parameter에 주의를 기울여야겠다.





[NGS] RNA sequencing End.

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[NGS] Epigenetic sequencing  (0) 2019.05.26
[NGS] Targeted gene panel  (0) 2018.08.19
[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11

[NGS] RNA sequencing Start.

BioinformaticsAndMe




1. RNA-sequencing

→ RNA-seq: RNA-Seq은 transcriptome을 분석하는 NGS 기술로 샘플에서 발현되는 RNA 서열을 시퀀싱.

→ DEG, Novel transcript, Fusion 분석 등에 사용.


 



2. RNA-seq Quality Control

- RNAseq에서 QC 과정은 중요하며, 몇 가지 Checkpoint를 집중적으로 살펴야하겠다.

① Raw read quality control 

→ 염기서열 quality, GC content, adaptor 유무, 지나친 k-mer 존재 유무, duplicated read 등을 검사.

→ 위 QC 에서 30% 이상의 불일치를 나타내는 outlier 샘플은 제외하기를 권장.


② Read alignment

→ 보통 70~90%의 RNA-seq read가 사람 genome에 mapping 되며, 이 중 일부가 multi-mapping될 것으로 예상.


③ Quantification

→ Transcript 정량값이 계산된 후, GC content와 유전자 길이의 bias를 고려해 normalization.


④ Reproducibility

→ 반복 실험과 batch effect 확인을 위해 재현 가능성을 측정.

→ Technical replicate의 재현 가능성 (r2>0.9)은 보통 높지만, biological replicate는 실험 간 이질성으로 인해 정해진 기준이 없음.






3. RNAseq Transcript identification 과정

① De novo transcript reconstruction

- 레퍼런스 genome이 존재하지 않거나 불완전한 경우, RNA-seq read를 input으로 SOAP, Trinity 등의 프로그램을 이용해 새로 transcriptome을 조립.



② Mapping to a reference

- 레퍼런스 genome에 mapping하는 것은 novel gene 또는 transcript identification을 가능하게 함.

- splice junction에 존재하는 read를 mapping하기 위해, gapped or spliced mapper를 필요로 함.

▶ RNAseq mapper로 흔하게 사용되는 TopHat은 두 단계의 과정으로 진행되는데,

    먼저 exon에 존재하는 splicing 되지 않은 read가 mapping 되고

    이후 mapping되지 않은 read들을 각각 split하여 다시 exon junction에 mapping을 시도.


▶ GSNAP, PALMapeer, MapSplic: SNP나 indel 발견에 최적화된 mapper.

▶ STAR, MapSplice: non-canonical splice junction에 특화된 mapper.

▶ Mapping 중 중요한 parameter : strandedness / 허용하는 mismatch 수 / read의 길이 / read의 type / sequence 길이.


 

③ Transcript quantification

- RNA-seq에서 gene 또는 transcript 발현을 측정 (기본이 되는 값은 transcript에 mapping된 read의 수).

- 아래는 RNAseq의 readcount 지표이다. raw count에서부터 normalized count까지 다양하게 존재한다.

▶ Quantification은 mapped read를 모으는 HTSeq-count 또는 featureCounts 사용.

▶ RPKM : 샘플 내 feature의 길이와 라이브러리 크기에 의한 효과를 보정.

▶ FPKM : RPKM에서 paired-end를 하나의 fragment라 인식하여 보정.

▶ TPM : 위와 비슷하지만 RNA 샘플 사이에서 transcript 길이 분포까지 포함한 개념.

▶ TMM : TPM과 마찬가지로 비교하고자 하는 RNA pools의 다른 조성에 대해 보정.


#아래 논문은 RNA-seq에서 사용되는 Normalized value를 비교한 내용이다.

https://academic.oup.com/bib/article/14/6/671/189645



④ Differential gene expression analysis

- RNA-seq read count에 기반한 Poisson 또는 negative binomial 확률 분포를 통해 발현 차이 분석.

▶ edgeR : input으로 raw read count와 가능한 bias의 원인을 통해 통계 모델을 만들어 normalization과 발현 차이 분석을 연계.

▶ DESeq2 : edgeR과 같이 negative binomial 분포로 고유 normalization 방법을 제공.

▶ baySeq, EBSeq : negative binomial model에 기반하고 있는 Bayesian 방식을 사용하여, 실험 그룹 간의 차이를 표현하고 각 유전자의 확률을 계산.







[NGS] RNA sequencing End.

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[NGS] Targeted gene panel  (0) 2018.08.19
[NGS] Target Enrichment(Capture) assay  (0) 2018.08.14
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11
[Blockchain] 블록체인과 헬스케어 (2)  (0) 2018.07.18

[NGS] Resequencing Start.

BioinformaticsAndMe




1. Resequencing (Reference sequencing)

- 종마다 이미 알려진 유전체(reference genome)를 기반으로 연구 샘플 유전체와의 비교를 통해 새로운 유전체 서열을 완성하는 방법.

- SNP, InDel 뿐만 아니라 CNV(Copy Number Variation), SV(Structural Variation)까지 분석 가능


- Denovo assembly (Denovo seqeuncing): reference genome X. 지금까지 밝혀지지 않은 미생물이나 동식물의 전체 유전체 정보를 알아내는 방법







2. Resequencing 과정

① Raw data Quality control

→ FastqQC로 시퀀싱 데이터의 퀄리티를 확인하고, Adaptor trimming 과정을 통해 Index 정보를 잘라냄 (보통 전체데이터의 1% 손실).

→ 가장 많이 사용되는 일루미나 시퀀싱은 형광물질을 자르고 붙이는 과정의 효율이 시퀀싱 후반부에 갈수록 떨어짐.



② Read Mapping

→ bwa, bowtie와 같은 aligner를 이용해 reference genome에 NGS read를 매핑하는 과정으로, SAM 혹은 BAM 파일이 생성 된다.

→ a) Reference indexing

→ b) Alignment

→ c) SAM file



③ Sorting and Add Read Group

→ Mapping된 Read들의 순서를 정리하고 샘플의 ID 및 태그정보를 추가하는 과정.


④ Remove Duplicates

→ Library 제작과정 중 진행되는 PCR 증폭 중에 생성된 중복 Read pair를 제거하는 과정.


⑤ Base Quality Recalibration

→ base calling 과정에서 생산된 raw Phred 스코어는 정확하지 않기 때문에, 여러 covariate를 이용하여 재조정.



⑥ Variant calling

→ 매핑 정보로 부터 염기변이 정보를 추출 (GATK, Varscan 등).

→ GATK에는 Calling method로 Haplotypecaller (정확/느림) 과 UnifiedGenotyper (부정확/빠름) 가 존재

→ 했지만, GATK4로 넘어오면서 UnifiedGenotyper 활용성이 떨어진다고 판단하여 사라짐.






 3. 시퀀싱에서 염두에 둬야할 사항

- 시퀀싱 과정에 PCR이 포함되어 있다면, 데이터의 GC contents (Human, 40%)가 매우 중요.

- GC contents에 따라 PCR 효율이 달라지기 때문에 결과에 bias가 생길 수 있음.

- 해당 샘플의 높은 GC contents를 인지하고 있다면, PCR-free 키트 활용을 고려.

- Read Length (Specification) vs  Read Count (Quantification)

Read Length : Structure variation, Gene fusion에서 중요.

Read Count : Sequence variation, DEG 분석에서 중요.





[NGS] Resequencing End.

BioinformaticsAndMe

[NGS] Next Generation Sequencing Start.

BioinformaticsAndMe



1. NGS (Next Generation Sequencing), 차세대염기서열분석

- 유전체를 무수히 많은 조각으로 나눈 뒤 각각의 염기서열을 조합하여 유전체를 해독하는 분석방법.

- 기존 생어 염기서열 분석(Sanger sequencing)과 달리 많은 수의 DNA조각을 병렬로 처리하는 데 특징.

- 차세대 염기서열 분석의 등장으로 유전체 분석에 필요한 비용이 급격히 낮아져 많은 분야에서 다양하게 사용.






2. Sanger sequencing  vs  NGS

- Sanger sequencing (1세대)

→ 시험관 DNA 복제 중에 DNA 사슬을 마무리 하는 ddNTP가 DNA 중합효소에 의해 제한적으로 삽입된다는 원리에 기반.


- NGS (2세대부터: Illumina, Pacbio, Ion Torrent)

→ Cloning X

→ Amplification이 병렬적으로 수행

→ 3단계의 병렬 시퀀싱 (nucleotide addition → detection → washing)





3. Next Generation Sequencing 발전 흐름

2세대 : Illumina (PCR and Fluorescence 수행).


2.5세대 : Pacbio (no PCR), Ion Torrent (no Fluorescence).

→ Ion Torrent : 수소이온 발생에 따른 PH와 전위차를 감지, 가격이 싸나 에러율 높음.

→ 참고로 Ion Torrent 데이터는 기존의 전통적인 일루미나 생물정보학 분석방법을 그대로 적용하면 많은 수의 false positive 발생.

→ 따라서, 분석 시 써모피셔에서 제공하는 Torrent Suite Software(TSS, ion platform software) 사용하는 것을 추천.


3세대 : Oxford Nanopore (no PCR, no Fluorescence).

→ Oxford Nanopore : 염기서열이 구멍을 통과할 때, 전류 흐름을 방해하는 성질 이용. Long read를 시퀀싱하는 능력 (~1Mb).






4. NGS Library 종류

- NGS Library: 샘플의 염기서열이 NGS 장비에서 해독될 수 있는 형태 (염기서열을 잘게 자르고 Index가 붙여진 시퀀싱 준비상태)

- 기본 NGS 라이브러리

→ Single end

→ Paired end (1Kb 이하)

→ Mate-paired end (3Kb 이상) 


- Exome 라이브러리

→ Exon을 캡쳐하는 키트를 통해 Exon만을 시퀀싱 (휴먼 1샘플이 40만원 정도하는 듯).


- GBS (Genotyping by Sequencing) 라이브러리

→ 제한효소를 처리하여 유전체 서열에서 그 제한효소에 의해 잘리는 영역 주변의 서열만을 시퀀싱.

→ GBS 장점 : 가격이 싸고(15만원), 참조유전체가 없는 종에도 적용 가능.

→ 유전체 전체를 Sequencing 하지 않고 부분적으로 sequencing 하여 비용적인 부담을 줄임.

→ GBS 단점 : 모든 유전자가 포함되지 않을 수 있음.




- RNA-seq 라이브러리

→ Total RNA는 90% 이상의 rRNA를 포함하고, 제거해줘야 함. 아래와 같은 방법들로 RNA를 동정한다.

#Removing rRNA: mRNA, miRNA 등의 Whole Transcriptome 동정. 그러나, rRNA를  완벽히 제거하기는 어려움.

#Oligo-dT Enrichment: mRNA의 Poly(A)부분만을 캡쳐하여 mRNA만을 동정.

#Size selection: 상대적으로 사이즈가 작은 Small RNA에 집중하여 동정.


- 16S amplicon 라이브러리

→ 16S 리보솜 RNA의 서열을 비교하여 원핵생물을 동정.

→ 메타지놈 연구에 주로 사용 (Amplicon 영역 중 V3,V5 사용).





[NGS] Next Generation Sequencing End.

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[Blockchain] 블록체인과 헬스케어 (2)  (0) 2018.07.18
[Blockchain] 블록체인과 헬스케어 (1)  (1) 2018.07.18
[Diagnosis] Liquid biopsy (액체생검)  (1) 2018.07.15

+ Recent posts