[Annotation] ANNOVAR Start

BioinformaticsAndMe







1. ANNOVAR


: ANNOVAR는 최신 정보에 기반하여, 다양한 Genome에서 검출된 변이에 Annotation 정보를 연결하는 프로그램

*Genome - hg18/19/38, 마우스, 파리, 효모 등

: Perl 프로그래밍 언어로 제작되었지만, 파이썬/R 등의 환경에서에서도 쉽게 사용 가능

http://annovar.openbioinformatics.org/en/latest/

: ANNOVAR는 크게 3가지 방식으로 Annotation을 수행

ㄱ) Gene-based annotation - 단백질 코딩 지역의 변이인지 확인

ㄴ) Region-based annotations - 특정 게놈 영역의 변이인지 확인

ㄷ) Filter-based annotation - 특정 DB에서 존재하는 변이인지 확인




2. Downloading


: http://annovar.openbioinformatics.org/en/latest/user-guide/download/ 에서 간단한 등록 후, ANNOVAR 다운

: ANNOVAR에서 사용되는 DB들은 UCSC Genome Browser에서 직접 다운로드 가능

# ANNOVAR 압축 해제

tar -xzf annovar.latest.tar.gz cd annovar



3. Quick start


: ANNOVAR 실행은 어렵지 않으며, 간략한 사용법은 홈페이지 참조

*http://annovar.openbioinformatics.org/en/latest/user-guide/startup/

# annotate_variation.pl을 통해 Annotation에 필요한 DB 다운로드

annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/ annotate_variation.pl -buildver hg19 -downdb cytoBand humandb/ annotate_variation.pl -buildver hg19 -downdb genomicSuperDups humandb/ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2014oct humandb/ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar snp138 humandb/ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb26_all humandb/

# table_annovar.pl로 ANNOVAR 실행

table_annovar.pl example/ex1.avinput humandb/ \ -buildver hg19 \ -out myanno \ -remove \ -protocol refGene,cytoBand,genomicSuperDups,esp6500siv2_all,1000g2014oct_all,1000g2014oct_afr,1000g2014oct_eas,1000g2014oct_eur,snp138,ljb26_all \ -operation g,r,r,f,f,f,f,f,f,f \ -nastring . \ -csvout

# VCF input 파일

table_annovar.pl example/ex2.vcf humandb/ \ -buildver hg19 \ -out myanno \ -remove \ -protocol refGene,cytoBand,genomicSuperDups,esp6500siv2_all,1000g2014oct_all,1000g2014oct_afr,1000g2014oct_eas,1000g2014oct_eur,snp138,ljb26_all \ -operation g,r,r,f,f,f,f,f,f,f \ -nastring . \ -vcfinput





#Reference

1) https://davetang.org/wiki2/index.php?title=ANNOVAR

2) http://annovar.openbioinformatics.org/en/latest/

3) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4718734/

4) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2938201/

5) https://en.wikipedia.org/wiki/ANNOVAR





[Annotation] ANNOVAR End

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[GenomeStudio] Genotyping module  (0) 2019.10.24
[Methylation] RnBeads  (0) 2019.10.16
[Cloud] BIO-Express  (0) 2019.05.23
[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09

[GenomeStudio] Genotyping module Start

BioinformaticsAndMe






GenomeStudio


: GenomeStudio는 Illumina array 데이터를 분석 및 시각화하도록 일루미나에서 제공하는 무료 프로그램

*2018년 이후,  version 2로 업데이트 된 상태로 아래 링크에서 다운받을 수 있음

https://support.illumina.com/downloads/genomestudio-2-0.html

: GenomeStudio에는 패키지처럼 생물정보학 분석에 필요한 다양한 모듈이 제공됨

*Genotyping, Expression, CNV, Methylation 등

: 누구나 쉽게 분석할 수 있도록 가벼운 인터페이스를 지님

: Illumina microarray raw data는 기본적으로 GenomeStudio로 분석됨

: 다만, 윈도우 환경에서만 프로그램이 제공되기에, 리눅스나 맥 작업 환경에서는 별도의 구축이 필요





Genotyping module


: 앞에서 설명한 것처럼 GenomeStudio 내에는 SNP genotype을 확인할 수 있는 Genotyping module이 존재

*microarray 발현양에 기반하여 유전자형을 동정

: 발현양에 기반하여 Copy Number Variation 동정도 가능

: 한번에 500만 개 이상의 probe를 분석할 수 있음

: Outlier(이상점) 샘플 추적 가능







#Reference

1) https://support.illumina.com/downloads/genomestudio-2-0.html

2) https://support.illumina.com/content/dam/illumina-support/documents/documentation/software_documentation/genomestudio/genomestudio-2-0/genomestudio-genotyping-module-v2-user-guide-11319113-01.pdf

3) https://www.illumina.com/techniques/microarrays/array-data-analysis-experimental-design/genomestudio.html

4) https://www.illumina.com/documents/products/datasheets/datasheet_genomestudio_software.pdf





[GenomeStudio] Genotyping module End

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[Annotation] ANNOVAR  (1) 2019.10.30
[Methylation] RnBeads  (0) 2019.10.16
[Cloud] BIO-Express  (0) 2019.05.23
[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09

[Methylation] RnBeads Start

BioinformaticsAndMe






RnBeads for DNA methylation


: DNA methylation은 후성유전학의 갈래로 질병과 발달에서 주요한 Epignentic mark로 알려짐

: RnBeads는 DNA methylation을 보는 Infinium microarray와 bisulfite sequencing에서 쉽게 분석해주는 R 패키지

*RnBeads 2.0 (https://rnbeads.org/

: RnBeads에서는 주요 Metylation mark를 찾는 다양한 방법과 시각화 과정을, 단지 R script 10줄 이내로 끝낼 수 있음

: 국내 DNA methylation 분석에서 표준 분석 툴로 자리 잡음





450K analysis pipeline


: 450K는 Infinium HumanMethylation450 BeadChip을 의미하며, DNA methylation 연구에서 가장 많이 사용됨

*485,512 probes 가 심어져 있어서 450K array로 불림 (현재는 100만개 정도 볼 수 있는 EPIC array도 출시)

: 아래 그림은 RnBeads를 포함하여 여러 DNA methylation 분석 툴을 비교한 것 (R패키지)

: RnBeads 분석 과정

1) 칩 데이터를 로딩 (IDAT 파일)

2) 부정확한 프로브 필터링 (detection p-value가 유의하지 않은 프로브 제거)

3) 450K는 Infinium I probe과  Infinium II probe가 함께 있으므로 보정 필요

4) DNA methylation 분석 자체가 환경적 요인이 강하므로 샘플의 cell composition에 대한 보정도 필요

5) 분석 결과는 DMP(특정 위치; genomics position), DMR(특정 지역; 프로모터 등)의 DNA methylation mark로 얻어짐

6) DNA methylation value로 copy number도 볼 수 있으나, 정확성은 의문





#Reference

1) https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1664-9

2) https://www.sciencedirect.com/science/article/pii/S1046202314002692

3) http://www.incodom.kr/RnBeads

4) http://www.rnbeads.org/materials/example_1/index.html





[Methylation] RnBeads End

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[Annotation] ANNOVAR  (1) 2019.10.30
[GenomeStudio] Genotyping module  (0) 2019.10.24
[Cloud] BIO-Express  (0) 2019.05.23
[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09

[Cloud] BIO-Express Start.

BioinformaticsAndMe




https://www.bioexpress.re.kr/



BIO-Express (유전체 분석 클라우드)


-KOBIC 에서는 Bio-Express 라는 공개 클라우드 분석 서비스를 제공하고 있으며

 이는 hadoop 분산파일 시스템과 웹 기반 분석 서비스 모듈인 클로샤, 그리고 데이터 고속전송 시스템인 KODS 로 되어있음


-클로샤 분석 프로그램에서 제공하는 파이프라인은

1)Whole Genome Sequencing

2)Whole Exome Sequencing

3)RNA-Sequencing

4)Metagenome Sequencing

5)ChIP Sequencing (DNA methylation 등)


-Galaxy FTP 대비 5배 빠른 업로드 속도를 가지고 있으며 데이터 분석도 Galaxy 대비 2배 이상 빠른 성능을 보여주고 있음


-학교 및 연구기관과 기업 및 다른 국가기관에서 모두 이용이 가능하며 G-Box 소프트웨어를 통해 데이터전송도 고속으로 진행 가능함


-Bio-Express 는 총 700개의 core 와 6TB 메모리, 1PB 의 저장소를 가지고 있고 개인별로 사용하는데 있어 사용량에 제한이 없음


-클로샤 웹 서비스에서 분석 파이프라인을 디자인 할 수 있고 분석수행 모니터링 및 다양한 결과파일들을 직접 확인할 수도 있음






[Cloud] BIO-Express End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[GenomeStudio] Genotyping module  (0) 2019.10.24
[Methylation] RnBeads  (0) 2019.10.16
[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12

[BLAST] BLAST result start.

BioinformaticsAndMe






1.  E-value:

값이 낮을 수록 유의하다 (Alignment 우연일 가능성이 낮음).


2. Identity score:

query가 database에 얼마나 정확하게 match하는가.


3. Positive score:

match하는 아미노산의 사이즈,극성 등을 고려하여 어느정도 유의하게 match되었는지 말해주는 점수값.





[BLAST] BLAST result end.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[Methylation] RnBeads  (0) 2019.10.16
[Cloud] BIO-Express  (0) 2019.05.23
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Cytoscape] GeneMANIA 1  (0) 2018.07.22

[NGS Fusion] Fusion Tools Start.

BioinformaticsAndMe





NGS Fusion에서 사용되는 Tool들을 살펴보기 전에

Fusion read의 매핑 형태를 이해해야만 툴들의 특징을 이해하기 쉬울 것이다.


#Fusion read의 매핑 형태

Encompassing read: paired-end reads의 두 read 전체가 Fusion gene의 두 유전자에 각각 정렬된 것 (discordant).

Spanning read: single-end read 또는 paired-end reads 중 하나의 read가 fusion gene의 두 유전자에 일부분씩 정렬된 것 (split).





#아래 테이블이 NGS Fusion에서 흔하게 사용용되는 Computational Tools이다.

Method가 크게 'Fusion detection specific''Structural variant detection'으로 나뉘는데,

RNAseq 데이터의 Fusion 메카니즘에 기반한 것인지, 구조적 변이에 따라 Fusion을 정의한 것인지에 따른 것이다.

자세한 설명은 아래 포스팅을 참조하길 바란다.

http://bioinformaticsandme.tistory.com/73?category=808031

Others는 Denovo 방식으로 Fusion을 찾는 툴이다.


Method URL Feature
Fusion detection specific
BreakFusion http://bioinformatics.mdanderson.org/main/BreakFusion Identifying gene fusions from paired-end RNA-Seq data
ChimeraScan http://code.google.com/p/chimerascan/ Detecting fusion transcripts from RNA-Seq data
Comrad http://code.google.com/p/comrad/ Using both RNA-Seq and WGS data to detect genomic rearrangements and aberrant transcripts
FusionAnalyser http://www.ilte-cml.org/FusionAnalyser/ Detecting gene fusions from paired-end RNA-Seq data
deFuse http://sourceforge.net/apps/mediawiki/defuse/ Identifying gene fusions from RNA-Seq data
FusionMap http://www.omicsoft.com/fusionmap/ Using either WGS or RNA-Seq data to detect fusion genes
FusionHunter http://bioen-compbio.bioen.illinois.edu/FusionHunter/ Detecting fusion transcripts from RNA-Seq data
FusionSeq http://archive.gersteinlab.org/proj/rnaseq/fusionseq/ Identifying fusion transcript from RNA-Seq data
ShortFuse https://bitbucket.org/mckinsel/shortfuse Identifying fusion transcripts from RNA-Seq data
SnowShoes-FTD http://mayoresearch.mayo.edu/mayo/research/biostat/stand-alone-packages.cfm  Detecting fusion transcripts from RNA-Seq data
SOAPfusiona http://soap.genomics.org.cn/SOAPfusion.html Part of the software SOAP, for genome-wide detection of gene fusions from RNA-Seq data
TopHat-Fusion http://tophat-fusion.sourceforge.net/ An enhanced version of TopHat, for detection of fusion transcripts from RNA-Seq data
Structural variant detection
BreakDancer http://genome.wustl.edu/software/ Detecting structural variations from paired-end WGS data
CREST http://www.stjuderesearch.org/site/lab/zhang Identifying structural variations from paired-end
2003GASV http://code.google.com/p/gasv/ Software for identifying structural variations
HYDRA http://code.google.com/p/hydra-sv/ Detecting SVs in both unique and duplicated genomic regions
PEMer http://sv.gersteinlab.org/pemer/download.html Using paired-end NGS data to detect structural variation
R453Plus1Toolbox http://www.bioconductor.org/packages/2.10/bioc/html/R453Plus1Toolbox.html  An R/Bioconductor package for the analysis of Roche 454 sequencing data
SVDetect http://svdetect.sourceforge.net/Site/Home.html Detecting structural variations from paired-end/mate pair data
VariationHunter http://compbio.cs.sfu.ca/strvar.htm Identifying structural variations from paired-end WGS data
Others
R-SAP http://www.mcdonaldlab.biology.gatech.edu/r-sap.htm A parallel method to estimate RNA expression level and to detect gene fusions from RNA-Seq data
Trans-ABySS http://www.bcgsc.ca/platform/bioinfo/software/trans-abyss De novo assembly of RNA-Seq reads
Trinity http://trinityrnaseq.sourceforge.net/ De novo assembly of RNA-Seq without using a reference






#아래 표는 위에서 설명한 Fusion Tool들의 특징들을 설명했다 (본인이 보유한 데이터를 어떤 툴에 적용할 수 있을지 쉽게 구분지을 수 있다).

Format 부분에서 대부분 툴들이 Single-end를 지원하지 않는다.

Fusion 분석에서 single read로만 Fusion을 찾는 것은 split-read만 사용하므로 Detection 정도가 다소 떨어진다.





#아래 표는 Fusion Tool 각각에서 사용되는 매핑 툴과 파라미터를 설명했다.

본인이 사용한 툴에서 나온 Fusion gene들이 어떠한 기준으로 뽑혔는지 이해할 수 있다.

또한, 실험 환경에 따라 해당 파라미터를 조절하여 Fusion detection의 sensitivity와 specificity를 높일 수 있을 것이다.




#참고문헌

1) Wang, Q., Xia, J., Jia, P., Pao, W., & Zhao, Z. (2012). Application of next generation sequencing to human gene fusion detection: computational tools, features and perspectives. Briefings in bioinformatics, 14(4), 506-519.

2) Performance Improvement Analysis of Fusion Gene Detection Algorithms (한국통신학회 2015년도 추계종합학술발표회)





[NGS Fusion] Fusion Tools End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[Cloud] BIO-Express  (0) 2019.05.23
[BLAST] BLAST result  (0) 2018.11.26
[NGS QC] MultiQC  (0) 2018.08.12
[Cytoscape] GeneMANIA 1  (0) 2018.07.22
[Driver Annotation] iCAGES  (0) 2018.07.13

[NGS QC] MultiQC Start.

BioinformaticsAndMe





NGS 분석을 이것저것 하다 보면, 결과들이 쌓이고 일일이 Quality Control하기 귀찮아진다.

또한, 샘플까지 많다면 첩첩산중이다.. 이때 찾아낸 QC tool이 있었으니,


2016년 6월 bioinformatics 저널에 이름을 알린 'MultiQC' 이다.

Citation도 이미 100을 넘은 것을 보아, 많은 생물정보학 연구자들이 사용하고 있는 추세로 보인다.



#이 툴은 NGS 분석과정에서 나오는 QC 결과들을 아래처럼 한장의 report로 만들어준다.



위 그림의 상단 메뉴바를 본다면, RNA-Seq에서부터 Hi-C 등 다양한 NGS 분석 QC를 지원한다.


한가지 착각할 수가 있는데, MultiQC가 모든 QC 분석을 진행하는 것은 아니고, 여러 툴에서 돌린 QC 결과를 종합해주는 것이다.

예를 들어, 왼쪽바에서 STAR, Cutadapt, FastQC를 볼수 있는데,

저 3개의 툴을 돌리고 나온 결과 로그값을 스캔하여 모든 샘플의 QC정보를 제공한다.





#단언컨대, NGS 분석을 하는 연구자라면 지금 소개하는 ‘MultiQC’ 를 강력하게 추천한다.

이렇게 강력강력하게 추천하는 이유는 직접 사용해보고 느낀 아래 3가지 이유 때문이다.


1. 일단 사용하기 굉장히 쉽다.


2. 샘플이 많거나 여러 분석이 진행됐다면, 쉽게 결과들을 종합해준다.


3. 리포트 파일이 깔끔하며, 리포트 화면에서 세세한 수정이 가능하다.


 


#또한 MultiQC는 NGS 연구자들이 흔하게 사용하는 대부분의 프로그램들을 지원한다.

본인이 사용하는 분석툴이 MultiQC에서 지원하지 않는다면, 개발자에게 요청하는 방법이 있겠다.

그러나, 나라면 내가 가진 툴에서 나오는 로그값들을 위 표에서 지원하는 다른 툴의 로그값 형태로 변환시키는 스크립트를 짤 것이다.

 




#MultiQC 설치

MultiQC 설치는 매우 간단하다.

아래 그림 우측하단에 나와 있듯이, pip으로 간단하게 설치할 수 있다.

MultiQC는 python으로 만들어졌다. 

#github을 이용할 수도 있다.

git clone https://github.com/ewels/MultiQC.git

cd MultiQC

python setup.py install


 


#MultiQC가 진행되는 과정은 3단계로 요약 가능하다.

1) 특정 디렉터리에서 분석 결과의 로그 파일을 검색.


2) 로그파일의 통계를 요약하여 한장의 HTML 보고서를 생성.


3) MultiQC 보고서 내의 결과 그림들 확인 및 export.


정말 간단하게 실행하려면 특정 폴더(data)에 모든 NGS 분석결과를 모아둔 뒤에,

$ multiqc data/

를 실행하면 NGS 결과 로그들을 스캔하면서 자동적으로 MultiQC결과 리포트를 생성해준다.



 

#물론, 원하는 폴더나 파일들만을 '*(asterisk)'를 이용해 스캔할 수 있다.

#Choosing where to scan

multiqc data/

multiqc data/ ../proj_one/analysis/ /tmp/results

multiqc data/*_fastqc.zip

multiqc data/sample_1*


#원하지 않는 파일은 '-x/--ignore flag'를 이용해 거른다.

# -x/--ignore flag

multiqc . --ignore *_R2*

multiqc . --ignore run_two/

multiqc . --ignore */run_three/*/fastqc/*_R2.zip





#RNA-seq QC 결과 예제

http://multiqc.info/examples/rna-seq/multiqc_report.html


- 위 그림은 전체적인 QC 값들의 통계를 보여준다.


- 위 그림은 Alignment stat 결과


- 우리에게 익숙한 FASTQC 'Per Base Sequence Quality' 결과





#multiQC 홈페이지

http://multiqc.info/



[NGS QC] MultiQC End.

BioinformaticsAndMe



'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[Cytoscape] GeneMANIA 1  (0) 2018.07.22
[Driver Annotation] iCAGES  (0) 2018.07.13
[CNV] ONCOCNV  (0) 2018.07.08

[Cytoscape] GeneMANIA 1 Start.

BioinformaticsAndMe



먼저 Cytoscape를 정의할 필요가 있겠다.


Cytoscape ?

사이토스케이프

관심있는 유전자의 Molecular interaction network 및 Biological pathway를 시각화하고,

네트워크의 annotation, expression 기타 등등 여러 오믹스 데이터에 연계할 수 있는

오픈 소스 소프트웨어 플랫폼이다.


윈도우에서 어느정도 메모리만 보유하고 있다면 쉽게 유전자 네트워크를 분석할 수 있는 툴이다.

Cytoscape에선 App과 동일한 의미로 사용되는 다양한 plug-in(플러그인)들이 존재하므로,

분석 방향에 맞는 플러그인을 찾아 설치하고 튜토리얼대로 따라하면 쉽게 네트워크 분석을 진행할 수 있겠다.

Cytoscape 설치과정은 홈페이지를 가서 다운받으면 끝이기 떄문에 따로 설명하진 않겠다.

http://www.cytoscape.org/



---------------------------------------------------------------

오늘은 Cytoscape 플러그인중

Gene-Gene intreaction 분석에 자주 사용되는

GeneMANIA 라는 네트워크 분석 플러그인을 소개하겠다.

GeneMANIA ?


홈페이지에 가보면 자세할 설명이 되어있다.

http://apps.cytoscape.org/apps/genemania


Gene interaction 분석 및 시각화 툴이다.

9개의 Organism의 163,599 gene이 가지는 597,392,998 interaction을 분석한단다...(오!?)


간단한 사용 예를 들어보자.

Input gene을 10개 넣으면 그 10개의 유전자로 만들 수 있는

Protein-Protein interaction, Co-expression, Relevant pathway 네트워크들을 찾아주는 것이다.

당연히 인풋으로 넣은 10개의 유전자에 네트워크상 가까운 Neighborhood gene들을 찾을 것이다.

사용한 Genemania 버전은 3.5.0 이다.

참고로, Genemania 는 python이나 R에서 구현이 가능하단다.



1. Cytoscape을 설치하고, 상단 메뉴바에 'Apps -> App Manager' 를 클릭하면 아래와 같은 화면이 나온다.

Search 항목에 'Genemania' 를 검색해보자.

그리고 아래 'Install' 을 해주면 Genemania plugin 이 설치된다.




2. GeneMANIA에서 어떤 버전을 설치할 건지 묻는데, 최신버전 '2017-07-13' 을 선택하고,

해당 버전의 'core'를 선택한다.  좀더 많은 네트워크 db 를 기반으로 분석하고 싶다면 'all'을 선택해도 좋다.




3. 자꾸 뭘 다운 받으라는데,, 처음에만 설정해놓으면 되는 것이니 좀만더 수고하자.

Homo sapiens 네트워크를 분석할 예정이므로, 'H.sapiens Human' 을 인스톨하자.




4. 아래는 분석화면이다. 본인이 연구하고 있는 유전자 하나 혹은 multiple genes 을 입력해 넣으면,

바로 아래 추가된다.

왼쪽 하단부에 Advanced Options 에서 관련된 파라미터 혹은 db를 조정할 수 있으므로,

연구 환경이나 보고자하는 기작에 대해 네트워크분석을 할 수 있다.

다음 칼럼에 좀 더 구체적으로 살펴보겠다.

오른쪽 하단부 'Start' 를 눌러보자.




5. 네트워크 결과가 나왔다. 네트워크 그림을 보면 검은색으로 칠해진 node(동그라미)가 위에 Input으로 넣은 gene들이고,

회색으로 칠해진 node가 Neighborhood genes 이다.

인풋으로 넣은 유전자와 Physical interaction (protein interaction), Co-expression, Predicted 등의 네트워크를 가깝게

형성하는 것들이 Neighborhood genes 들로 연결되어있다.

Edge(연결선) 의 색들이 오른쪽 interaction 카테고리에 매칭된다.

'Node의 크기' 와 'Edge의 굵기' 등 여러 요소를 살펴볼 필요가 있다.




마무리하며...

GeneMANIA를 통해, Gene interaction network을 쉽게 접근해볼 수 있겠다.

사실, GeneMANIA 는 웹페이지에서도 분석할 수 있다.

https://genemania.org/



본인의 기호에 맞게 사용하면 되지만, Cytoscape 에 익숙해지기 위해선,

플러그인 형태로 사용하는 것을 추천한다.

내용 설명에 부족한 점이 많아, 이번 칼럼에서 다루지 못했던 내용들을

GeneMANIA 파트 2 에서 다루도록 하겠다.




[Cytoscape] GeneMANIA 1 End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Driver Annotation] iCAGES  (0) 2018.07.13
[CNV] ONCOCNV  (0) 2018.07.08

[Driver Annotation] iCAGES Start.

BioinformaticsAndMe



Cancer genomics 분석으로 Somatic mutation(체세포 돌연변이) 나왔을때, 그 변이가 해당암에서 Driver 역할을 하는지 알고싶다.

그래서 연구자들은 MuSiC, SIFT, FunSeq2 등의 프로그램들을 개발해왔고, Cancer에서 Driver variant 혹은 gene을 찾아 결과를 냈다.

오늘 소개할 툴은 이와 같은 맥락으로 만들어진

iCAGES (integrated CAncer GEnome Score for comprehensively prioritizing driver genes in personal cancer genomes) 를 다뤄보겠다.

iCAGES 는 coding, noncoding, structure 변이의 기여도를 종합하여, 분석으로 확인된 변이 및 유전자의 우선 순위를 메기고,

기존의 연구된 biological knowledge를 기반으로 driver gene을 찾는다. 최종적으로는, Driver gene들의 Drug treatment 까지 고려하여

우선 순위의 약물을 제시하는 플랫폼이 되겠다.



아래는 Driver gene 을 찾는 여러 툴들 간의 비교 테이블이다.

큰 카테고리로 Genomic variant analysis, Transcriptomic expression analysis, Phosphorylation analysis 의 3개로 나눠져있다.

MuSiC이나 SIFT같은 이미 많이 알려진 툴들이 보인다.

iCAGES 기능 중 Personalized drug, Prior knowledge integration 가 눈에 띄는데,

Personalized drug 은 특정 환자에서 나온 변이에 대해 Drug prioritization 을 해준다는 것이고,

Prior knowledge integration 은 Phenolyzer(database-mining tool)을 이용해 기존 관련 연구 내용을 스코어링해 prioritization을 돕는다는 것으로 보인다.



#iCAGES 의 파이프라인은 크게 3개의 layer를 가지고 분석이 진행된다.

Layer 1: Variant prioritization

첫 번째 layer는 돌연변이를 먼저, 여러 툴로 annotation한다. 그리고 coding, noncoding, SV 에서 각각 prioritization 스코어를 얻고 표준화시킨다.


Layer 2: Gene prioritization

두 번째 layer 는 모든 유전자 변이에 대한 점수를 위에서 전달받고, 몇몇 알고리즘을 거쳐 각 유전자에 대한 iCAGES score를 얻는다 (암유전자일수록 높은 스코어를 가질 가능성이 높다).


Layer 3: Drug prioritization

iCAGES의 마지막 단계는 표적 약물의 우선 순위를 정한다. 앞에서 받은 유전자를 DGIdb와 FDA Drug db에 쿼리하여, 해당 유전자가 Driver gene이 될 수있는지 표적으로 삼는 모든 potential drug을 찾고 스코어링 한다.




http://icages.wglab.org

iCAGES 논문에서는 위 사진처럼 웹에서도 쉽게 사용할 수 있다고해서 가봤더니, 안된다; 웹서버가 안된지 꽤 된 것으로 보인다..

하지만 아래 사이트엑 가면, iCAGES 다운로드와 튜토리얼을 친절하게 제공해주고 있으니 참고하면 좋겠다.

#iCAGES 다운 및 설치

http://boevalab.com/ONCOCNV/http://icages.openbioinformatics.org/en/latest/



마무리하며...

암유전체뿐만아니라 많은 연구에서 Driver gene을 찾는데 많은 노력을 기울이고 있다.

다양한 데이터베이스와 알고리즘이 알려져 있는데, iCAGES 툴을 공부하다 보면 어느정도 흐름이 보인다.

Drive gene 찾는 연구 초기에 분석을 어떤식으로 진행할지 막막하다면,

iCAGES 를 사용하면서 어떤 논리와 기준으로 스코어링을 메겨 Driver gene과 variant를 찾는지 봐두면 좋겠다.


iCAGES 논문

https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-016-0390-0#Tab1




[Driver Annotation] iCAGES End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Cytoscape] GeneMANIA 1  (0) 2018.07.22
[CNV] ONCOCNV  (0) 2018.07.08

[CNV] ONCOCNV Start.

BioinformaticsAndMe


ONCOCNV - a package to detect copy number changes in Deep Sequencing data


ONCOCNV 는 Amplicon sequencing 플랫폼에서 Copy Number Variation 찾기에 특화된 Tool로

OncoDna(벨기에)와 Bioinformatics Laboratory of Institut Curie (프랑스)의 협력으로 개발되었다.


최근 암 진단 검사에서 Customized Targeted Sequencing 에 Ampliseq을 사용하는 경우가 많이 늘었는데,

여러 이유가 있겠지만, 변이 검출의 높은 정확성과 빠른 실험 TAT(Turn A Round)가 장점일 듯 하다.


OncoDNA(벨기에)는 유럽쪽에는 꽤 유명한 암진단전문기업으로,

ONCOCNV 개발에 자사에 CNV 검출 방법을 많이 녹아내지 않았을까?.. 하는 추측을 해본다.

(OncoDNA는 또한 Liquid Biopsy 에서 힘좀 쓴다는 기업으로 알려져 있으므로, 관련 내용을 다음 칼럼에서 좀 더 살펴보도록 하겠다)



#ONCOCNV 다운 및 설치

http://boevalab.com/ONCOCNV/


#ONCOCNV 특징

-Ampliseq 데이터에서 large CNA를 감지할 수 있는 Multi-factor normalization 및 Annotation 기법을 보유.

-CGH(Comparative Genomic Hybridization)에 상응하는 높은 CNA 검출 정확도.

-따라서, Ampliseq하고 ONCOCNV 돌리면, CGH 또는 SNP array 실험할 필요가 없음.

위에는 ONCOCNV의 전체 파이프라인 이다. 간단하게 설명하면,

1. 샘플들의 Library size, GC content들을 표준화시켜놓고,

2. Control만 가지고 Reference에 해당하는 baseline construction 작업을 수행한다.

-ONCOCNV에서는 Reference 만드는 Control 샘플을 최소 3개 이상 권하고 있지만, 툴을 돌려보면 2개만 있어도 작동은 된다.

-Control 샘플은 많으면 많을수록 타겟 질환희 CNA 검출 정확도가 높아진다.

3. 만들어진 Reference를 기반으로 Tumor 샘플의 CNA가 있는지 통계 기법으로 확인하고,

4. 여러 보정 작업을 끝낸 최종 CNA를 시각화 하는 것으로 마무리.


ONCOCNV input은 BAM 파일이 사용되기 떄문에 돌리는 것 자체는 리눅스 환경에서 크게 어렵지 않다.

샘플 크기에 따라 다르겠지만, 상대적으로 Reference construction하는 과정이 시간이 좀 걸린다.



마무리하며..

ONCOCNV에서도 말한 것처럼, 이 툴의 큰 장점은 Amplicon sequencing에 큰 장점이 있다는 것이다.

다른 CNV 툴들은 Amplicon 단위가 아니라 엑손 단위로 묶어서 CNV를 계산해 버리기 때문에, Ampliseq으로 CNV 보는게 부적절할 수 있다.

아직까지는 많은 사람들이 사용하는 툴은 아니라 생각되지만, 진단검사와 Ampliseq 분석이 흔해질수록,

그 강점이 빛나는 CNV detection tool 이 되지 않을까? 라는 생각이 든다.


ONCOCNV 논문

https://academic.oup.com/bioinformatics/article/30/24/3443/2422154




[CNV] ONCOCNV End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Cytoscape] GeneMANIA 1  (0) 2018.07.22
[Driver Annotation] iCAGES  (0) 2018.07.13

+ Recent posts