GWASdb (SNP annotation database) Start.

BioinformaticsAndMe






오늘은 쓸만한 GWAS SNP annotation 데이터베이스를 살펴보겠다.


GWASdb


GWASdb는 SNP Annoation 정보를 가진 거의 모든 Public db를 Curation했다 (아래 Table 참고).

GWASdb에서 Annotation된 SNP을 TASs(traits/diseases associated SNP) 라고 하는데, 수집에 사용한 기준이 다소 흥미롭다.

일반적으로 GWAS SNP p value 기준을 '5 x 10-8' 으로 잡고 결과를 리포팅하는데, GWASdb에서는 '1 x 10-3' 까지의 SNP들을 수집했다.

이것은 Phenotype에 연관된 SNP들의 N수를 광범위하게 늘려나가면서, 관련 GWAS 연구를 촉진시키기 위함이란다.


 SNP information Gene-based annotation Knowledge-based annotation Functional prediction Evolution annotation Disease annotation External link 
Annotations Manually curated (250k), dbSNP 142, 1000G phase I, HapMap and 1000G LD RefGene, EnsembleGene, KnownGene, GENCODE, Small RNA, MicroRNA target sites Validated and predicted enhancer, Insulator, HapMap and GTEx eQTL, Long range interaction (5C, ChIA-PET, Hi-C), ENCODE ChIP-seq, ENCODE functional elements Transcriptional factor binding site affinity, MicroRNA target site affinity, Splicing site affinity, Non-synonymous SNP functional prediction, Synonymous SNP functional prediction, Phosphorylation site functional prediction Positive selection, Conserved functional RNA, PhastCons, GERP++ elements OMIM, ClinVar, Cosmic, DGV, GAD SNPedia, Regulomedb, HaploReg, rSNPBase, UCSC Genome Browser, GWAS central 




그래서 총 수집한 TASs가 몇개인지 아래 bargraph에서 보인다.

Genic region에만 14만개 정도가 있으며, Intergenic까지 합치면 대략 25만개 TASs가 있다.







#GWASdb는 2011년, 처음으로 Nucleic Acids Research에 Publish했으며....



그 업데이트 버전(v2)를 2015년에 재차 publish 하였다.

(안타까운 점은 위 버전을 마지막으로, 16년부터는 지속적 업데이트는 없는 것으로 보인다)





개인적으로 생각하기에 GWASdb에서 가장 효율적으로 활용할 수 있는 정보는

Disease SNP 카테고리다.



예를 들어. 알츠하이머로 Curation된 모든 SNP 리스트를 보고 싶다면 쉽게 ctrl+F로 검색하여 찾을 수 있다.




마무리하며..

GWASdb는 현재 'GWASdb 2015 AUGUST release'가 마지막 버전이다.

아래 링크건 홈페이지에 'Services' 항목으로 가면 다운받을 수 있다.

흥미로운 점은 Drug 관련된 SNP 정보들도 정리해놨기 떄문에,

특정 약물에 관련된 TASs 리스트를 확인해볼 수 있겠다.




#GWASdb 홈페이지

http://147.8.193.36/gwasdb





GWASdb (SNP annotation database) End.

BioinformaticsAndMe

SNPnexux (SNP Annotation database) Start.

BioinformaticsAndMe




웹상에서 쉽게 돌릴 수 있으면서, 다양한 SNP annotation 정보를 주는


SNPnexus를 살펴보자.



SNPnexus는 영국의 Barts Cancer Institute에서 2008년에 만들어진 SNP annotation db이다.

오랜 시간이 지났음에도 사이트 관리가 잘되고 (하지만.. 접속이 많아서인지 느리다),

계속해서 SNP 관련된 여러 정보들을 업데이트 하면서 그 명성을 이어가고 있다.


#SNPnexux 홈페이지

http://snp-nexus.org/



아래는 18년 5월에 발표된 논문으로 Precision medicine을 위해 SNPnexus가 매우 적절하다는 정도의 내용이다.

계속해서 관리가 되고 최신 흐름도 따라가고 있는 유용한 Annotation Database가 되겠다.





#SNPnexus에는 크게 10개 카테고리의 정보들이 있다.

    • Genomic Mapping
    • Gene/Protein Consequences
    • Effect on Protein Function
    • Population Data
    • Regulatory Elements
    • Conservation
    • Phenotype & Disease Association
    • Structural Variations
    • Immunotherapeutic Applications
    • Non-coding Variation Scoring

supplement 자료를 살펴보면 위 카테고리는 39개의 여러 유명한 DB로 구성되어 있다.

https://academic.oup.com/nar/article/46/W1/W109/4994954#supplementary-data





#아래는 SNPnexus가 어떤 알고리즘으로 Input SNP에 다양한 annotation을 해주는지의 흐름도이다.

#직접 사용해보면 느끼겠지만 SNPnexus는

1. 웹상에서 사용하기 굉장히 편하고,

2. 결과 파일도 정리가 잘 되어있다.





#예제 파일을 돌려보자.

- 위에는 SNPnexux 홈페이지다. 본인이 원하면 결과 파일을 메일 주소로 전달받을 수 있다.

- Batch Query(여러개 검색)가 가능하며, 저렇게 rssnp을 적어줄 수도 VCF포맷 형태로도 인풋을 복사 붙여넣거 및 업로드 가능하다.






- Input 파일을 넣었으니 이제 어떤 annotation을 보고 싶은지 선택해주면 된다.

- 어떤 population~, 어떤 regulation~, 심지어 noncoding 정보도 annotation할 수 있다.

- 본인은 내가 찾은(예제...) SNP의 질병정보를 알고 싶었기에 'Phenotype & Disease Association'을 모두(4개) 선택하였다.

- 화면에 나오지 않았지만 결과 output 형태를 txt 혹 vcf 로 할 수 있다.





- 결과파일은 위와 같이 나오는데, 하나씩 클릭해서 볼 수도 있고 다운받아 볼 수도 있다.

- 위에서 질병정보만 annotation했기 때문에 딱 그에대한 정보만 볼 수 있다.





- GAD 정보를 살펴보니 Input으로 넣은 SNP들이 어떤 질병에 속하는지 잘나와있다. 엑셀로도 받을 수 있다.

- Clinvar, COSMIC 정보는 직접 예제를 돌려 확인해보는게 좋을 듯 하다.





마무리하며..

SNPnexus가 진짜 다 괜찮은데... ㅎ

단점이 있긴 있다..

매우 ㅁ ㅐ우 느리다... 

물론 매칭할 정보가 많아서 혹은 서버상태 때문에 느린거겠지만, 뭐 어쩔수없다.

리눅스를 쓰지않고 웹상에서 하는 annotation의 한계일 듯 싶다.




SNPnexux (SNP Annotation database) End.

BioinformaticsAndMe

Enrichr (gene set enrichment analysis) Start.

BioinformaticsAndMe




생물정보학 분석에서 Functional characterization은 실험한 유전자들의

생물학적 기능을 파악하고 분류하는데, 매우 중요한 과정이다.

#Functional characterization은 2가지 방법이 있다.

1) DEGs와 그 나머지를 비교하여 overrepresented function을 찾는 방법

2) Gene Set Enrichment Analysis로 발현량 차이 값(Fold change)을 고려하여 ranking 하는 방법.



사실 유전자들의 Function을 이해하고 그룹핑하는 일은 기존에 만들어진 DB 정보들을 이용하는 것이다.

많은 enrichment analysis 분석을 제공하는 사이트와 툴들이 있지만,


#Enrichr 를 소개하는 가장 큰 이유는 3가지다.

a) 방대한 DB 정보

- 현재 Enrichr는 132개의 gene set library 에서 245,575개의 annotated gene sets을 보유하고 있다. 

b) 쉬운 접근

- Enrichr 웹사이트에서 유전자 혹 유전자-스코어 정보를 인풋으로 복사 붙여넣으면 분석할 수 있다.

c) 명료한 시각화

- 분석 결과를 보면 다양한 enrichment analysis 결과를 한눈에 쉽게 볼 수 있다.


아래는 Enrichr 홈페이지다.

#Enrichr 홈페이지

http://amp.pharm.mssm.edu/Enrichr/




#아래는 Enrichr 논문에서 발췌한 테이블로 많은 DB 정보들을 라이브러리로 활용 중인 것을 알 수 있다.

#현재는 더 많은 정보를 Enrichment analysis를 위해 활용 중이다.

#흥미로운 점은 각각의 정보를 다운 받을 수 있다는 사실이다 (카레고리별로 정리가 잘 되어 있다).




#Enrichr에서 제공하는 예제 유전자들로 Enrichment 분석을 해보자.


1. 예제 유전자 입력하고, SUBMIT 하기




2. Pathway 결과 확인

-상단부에 'Transcription', 'Pathways', 'Ontologies' 등등 큰 카테고리로 분류되어 있는 것이 보인다.

-'Pathway'를 클릭하면, 우리가 예제 인풋으로 넣은 375개의 유전자가 Enrichment한 pathway들을 DB별로 확인할 수 있다.

-물론, 각각의 정보들을 클릭하면 더 자세한 내용을 확인할 수 있다.




3. KEGG 2016의 테이블 결과 확인하기

- 'KEGG 2016'을 클릭하면 상단에 'Bar Graph', 'Table', 'Network' 등의 자세한 정보를 확인할 수 있다.




직접 Enrichr 홈페이지에 들어가서 이것저것 눌러보고, 모른다면 FAQ를 살펴보는 것이 이해하기 쉽다.

사실 개인적으로 중요한 점은 Enrichr가 제공하는 여러 정보들 중에서 본인에게 적합한 Enrichment 결과를 선택하는 것이겠다.


#또한 Enrichr는 R package 제공되는데, 필요한 분들이 있을 것 같아 참조한다.

https://cran.r-project.org/web/packages/enrichR/vignettes/enrichR.html




마무리하며..

Enrichr에서 사용하는 DB가 항상 최신은 아니다. 위에서 다룬 KEGG DB는 2016 버전이었다.

GO는 2018년으로 업데이트 된 것으로 보이는데, 사용하는 연구자가 어느정도 고려해야할 부분으로 보인다.

모든 DB를 최신으로 이용하고 싶다면, 아마 위에서 소개한 R을 활용하는 것도 방법이 되겠다.




Enrichr (gene set enrichment analysis) End.

BioinformaticsAndMe


COREMINE medical (Biomedical database) Start.

BioinformaticsAndMe


노르웨이의 PubGene에서 제공하는 사용하기 쉽고 강력한 Biomedical 검색 엔진을 소개하겠다.

COREMINE Medical은 특정 키워드에 연관된 다양한 정보 (Biology, Drug, Food 등등)를 마이닝하여

입력 키워드를 허브로 하는 네트워크와 잘 정리된 카테고리로 정리해 보여준다.

COREMINE medical

https://www.coremine.com/medical/#search



위 링크를 타면 아래 홈페이지가 나타나고, 예제로 있는 Influenza 를 한번 검색해보자.

Influenza 의 키워드가 들어간 여러 정보들이 검색되었고 가장 많은 Connection이 있는 제일 위에 것을 선택했다.

Connection의 개수는 해당 키워드랑 매칭되는 Biomedical 정보의 개수라 봐도 되겠다.




이야.. 화려해보이는 네트워크와 검색된 정보들이 아래 보인다.

오른쪽 화면은 Influenza 에 관련된 Biomedical 정보들을 카테고리 별로 모아둔 것이고,

(Disease, Drug, Gene, Chemical 에서부터 관련 Expert, Food, Anatomy 등 흥미로운 소재들이 많다)

왼쪽은 앞서 말한 카테고리 중 Influenza와 높은 빈도로 매칭되는 Term 들을 시각화하였다.




Biological process를 살펴보니 'viral release from host cell' 가 가장 높은 스코어로 나왔다.

인플루엔자가 바이러스와 관련이 많구나!



COREMINE은 참 간단하게 다룰 수 있어 편하다.

동시에 Breast cancerBRCA2 를 검색하였다 (검색되는 키워드 갯수는 제한이 없어 보이지만,, 많을수록 검색이 잘 안되겠지..)

유방암과 BRCA2 와 관련된 Drug 들을 살펴보았다.



검색에 다소 힘이 부치는 일반연구자들에게 텍스트 마이닝으로 다져진 'COREMINE 플랫폼' 은 상당히 유용해 보인다.

일반적으로 다루는 Gene, Drug, Pathway 외에 관련된 논문, 전문가, wiki까지?! 다룬다.

가입을하여 로그인을 하면 검색했던 정보들을 어느정도까지 저장할 수 있다.

COREMINE medical 은 데이터의 홍수속에서 생물의학연구자가 새로운

Biomedical Insight 를 얻을 수 있는, 디딤돌이 될 Database라 생각된다.



COREMINE medical (Biomedical database) End.

BioinformaticsAndMe

Expression Atlas (유전자 발현 database) Start.

BioinformaticsAndMe


유전자 발현 데이터베이스는 상당히 많다.

종마다, 조직마다, 실험마다 다양하서 뭘봐야할지 모르겠다 (Human tissue는 GTEx가 잘 정리된편인듯).

자유자재로 GEO와 ArrayExpress 다루는 선생님들은 뭐 걱정이 없으시겠지만,

나같은 초보에게도 쉽게 종마다의 발현 정보를 볼 수 있는 사이트가 있었다.

Expression Atlas

https://www.ebi.ac.uk/gxa/home


와.. single cell expression도 있다.


EMBL-EBI 에서 제공하는 오픈 리소스로 Gene Expression Curation부터 Visualization까지 잘 갖춰져있다.
3000개가 넘는 실험 정보(array, seq)와 40개의 species를 기반으로 하고 있다.
GTEx나 FANTOM5 등의 여러 DB를 통합하면서, 또 친절하게 생물학박사님들이 메뉴얼로 curation 했다고 한다.




#유명한 TP53 와 Lung cancer 발현 정보를 검색해보자.

가운데 Organism은 선택해도 되고, 나는 모든종을 의미하는 'any'로 검색해보겠다.

검색방식은 TP53 and Allspecies and Lung cancer의 교집합 과정이다.


38개의 Expression experiment가 검색되었고 어떤 cell에 발현이 높은지를 색의 농도로 나타내었다.

(사실 Baseline expression은 나는 잘안본다;; 보기 불편해서..)



아래 Deferentially expression 결과를 보자.

처음에 결과를 보고 좀 놀랐던게.. 나는

suppressor인 TP53는 암군인 case가 control에 비해 발현이 떨어져야 한다고 생각했다.

맨위에만 내가 예상한 발현 결과였다.

나니?..


그런데 comparison에 마우스를 대보면 실험에 대한 상세한 내용이 있어서,
구체적인 실험조건을 알고 싶으면 직접 찾아들어가서 보는게 낫겠다.
(예상은 Passage 차이가 있는 걸로 봐서 배양횟수에 따른 비교실험인것 같고,
passage가 높을수록 TP53 발현이 높게 되는 것 같다. 아니면 댓글부탁드려요..)




요즘은 대부분이 RNA-seq을 한다지만, 아직도 array를 통해 expression을 보는 선생님들도 많은 것 같다.
국내사에 분석의뢰를 하면, 그냥 정해진 파이프라인대로만 결과를 줘서 연구자가 downstream 분석하기가 여려운게 사실이다.
분석의뢰한 결과 중에 관심있는 유전자의 발현이
Expression Atlas에서도 유사하게 나온다면

어느정도 믿음을 깔고 더 깊은 분석으로 들어갈 수 있지 않을까?​



Expression Atlas (유전자 발현 database) End.

BioinformaticsAndMe



+ Recent posts