Datasets and Applications of Machine Learning to the Coronavirus [4] Start

BioinformaticsAndMe






코로나바이러스 머신러닝 데이터셋 및 앱

[1] 항바이러스성 약물 연구 촉진을 위한, 단백질 구조 및 화합물 상호작용 예측

[2] 정확한 자원 조달과 대응을 위한, 감염률 및 환자 예후 예측

[3] 의료영상에서 병변 이미지 진단 보조

[4] 소셜미디어 데이터에 기반한 바이러스 확산, 증상 예측 및 대중적 이해도 조사






소셜미디어 데이터에 기반한 바이러스 확산, 증상 예측 및 대중적 이해도 조사


코로나 바이러스에 대한 정보를 얻기 위해, 소셜미디어 데이터마이닝에 집중함

: 소셜미디어는 일반 대중의 증상과 확산에 대한 자세한 정보를 포함할 가능성이 높음

: 코로나 바이러스 추적을 위해, 효과적인 소셜미디어 데이터마이닝 기법과 데이터셋을 소개함

1. A review of influenza detection and prediction through social networking sites

2. Forecasting Influenza Levels using realtime social media streams

3. Regional Influenza Prediction with Sampling Twitter Data

4. 데이터셋





1. A review of influenza detection and prediction through social networking sites


: 소셜 네트워크 사이트를 이용하여, 실시간으로 전염병 분석 및 관련 툴 개발을 목표로 둠

: 트위터 등의 소셜미디어 데이터는 인플루엔자와 같은 독감 확산을 예측하고, 조기에 경보를 받는 데 도움이 될 수 있음

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5793414/






2. Forecasting Influenza Levels using realtime social media streams


: 소셜미디어 데이터를 통해 인플루엔자 바이러스 활동을 예측하고, 이전보다 더 정확한 실시간 평가를 제공

: 소셜미디어 데이터에 CDC 데이터를 결합하여, 신빙성 있는 예측 모델 구축

*CDC(Centers for Disease Control and Prevention) - 감염병을 연구하는 미국의 질병통제예방센터

https://www.scholars.northwestern.edu/en/publications/forecasting-influenza-levels-using-real-time-social-media-streams






3. Regional Influenza Prediction with Sampling Twitter Data


: 소셜의 실시간 트윗 데이터를 기반으로 인플루엔자 예측 방법을 개발

: 미국의 10개 지역에서 트윗 정보를 조사하여, 바이러스의 경향성 및 예측력을 비교함

https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&ved=2ahUKEwiS4OG_y6DoAhWYlHIEHWBgDGIQFjAHegQIBxAB&url=https%3A%2F%2Fwww.mdpi.com%2F1660-4601%2F17%2F3%2F678%2Fpdf&usg=AOvVaw28lUY2oEaS9FCUQR6UF6Tf





4. 데이터셋


: Coronavirus Tweets Dataset

 







#Reference

1) https://towardsdatascience.com/machine-learning-methods-to-aid-in-coronavirus-response-70df8bfc7861

2) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5793414/

3) https://www.scholars.northwestern.edu/en/publications/forecasting-influenza-levels-using-real-time-social-media-streams

4) https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&ved=2ahUKEwiS4OG_y6DoAhWYlHIEHWBgDGIQFjAHegQIBxAB&url=https%3A%2F%2Fwww.mdpi.com%2F1660-4601%2F17%2F3%2F678%2Fpdf&usg=AOvVaw28lUY2oEaS9FCUQR6UF6Tf

5) https://www.kaggle.com/smid80/coronavirus-covid19-tweets






Datasets and Applications of Machine Learning to the Coronavirus [4] End

BioinformaticsAndMe

Datasets and Applications of Machine Learning to the Coronavirus [3] Start

BioinformaticsAndMe





코로나바이러스 머신러닝 데이터셋 및 앱

[1] 항바이러스성 약물 연구 촉진을 위한, 단백질 구조 및 화합물 상호작용 예측

[2] 정확한 자원 조달과 대응을 위한, 감염률 및 환자 예후 예측

[3] 의료영상에서 병변 이미지 진단 보조

[4] 소셜미디어 데이터에 기반한 바이러스 확산, 증상 예측 및 대중적 이해도 조사






의료영상에서 코로나 바이러스 진단 보조


: X-ray 또는 CT 스캔에서 코로나 바이러스 폐렴 사례를 검사하여, 진단 시간을 줄이고 향상된 치료 가이드라인 제공

: 방대한 환자들을 감당하는 전문의는 한정적이므로, 이미지 관련 딥러닝을 보조 수단으로 활용 가능

: 아래의 논문들은 의료영상으로 바이러스에 대한 통찰력을 넓히기 위한 데이터셋과 학습 기법을 소개함

1. Deep learning-based model for detecting 2019 novel coronavirus pneumonia on high-resolution computed tomography

2. A deep learning algorithm using CT images to screen for CoronaVirus Disease (COVID-19)

3. Deep Learning System to Screen Coronavirus Disease 2019 Pneumonia

4. 데이터셋





1. Deep learning-based model for detecting 2019 novel coronavirus pneumonia on high-resolution computed tomography


: UNet을 사용하여 CT 스캔에서 코로나 바이러스 관련 feature를 추출하고 분류함

*UNet - biomedical 이미지 분할을 위해 개발된 convolutional neural network

: 입원 환자 데이터로부터 생성된 딥러닝 모델을 통해, 방사선 전문가의 판독 시간을 크게 단축시킴

: 따라서, 방사선 전문의는 제한된 시간에 더많은 CT 검사를 수행할 수 있었음

https://www.medrxiv.org/content/10.1101/2020.02.25.20021568v2.full.pdf






2. A deep learning algorithm using CT images to screen for CoronaVirus Disease (COVID-19)


: 코로나 확진자의 CT사진 및 일반적인 폐렴 CT사진을 수집하여, 딥러닝 모델을 생성함

: 정확한 COVID-19 진단을 위해, 관련된 방사선 feature 추출 워크플로우를 제시함

https://www.medrxiv.org/content/10.1101/2020.02.14.20023028v5.full.pdf






3. Deep Learning System to Screen Coronavirus Disease 2019 Pneumonia


: 중국의 3개 대형 병원에서 수집된 코로나 환자들의 CT사진을 기반하여 딥러닝 모델 생성

: 환자의 표본은 위에서 언급된 연구보다 많으나, 상대적으로 적은 CT사진 때문에 precision이 다소 떨어짐

: https://arxiv.org/ftp/arxiv/papers/2002/2002.09334.pdf





4. 데이터셋


: COVID-19 image data collection







#Reference

1) https://towardsdatascience.com/machine-learning-methods-to-aid-in-coronavirus-response-70df8bfc7861

2) https://www.medrxiv.org/content/10.1101/2020.02.25.20021568v2.full.pdf

3) https://www.medrxiv.org/content/10.1101/2020.02.14.20023028v5.full.pdf

4) https://arxiv.org/ftp/arxiv/papers/2002/2002.09334.pdf

5) https://en.wikipedia.org/wiki/U-Net

6) https://github.com/ieee8023/covid-chestxray-dataset






Datasets and Applications of Machine Learning to the Coronavirus [3] End

BioinformaticsAndMe

Datasets and Applications of Machine Learning to the Coronavirus [2] Start

BioinformaticsAndMe






코로나바이러스 머신러닝 데이터셋 및 앱

[1] 항바이러스성 약물 연구 촉진을 위한, 단백질 구조 및 화합물 상호작용 예측

[2] 정확한 자원 조달과 대응을 위한, 감염률 및 환자 예후 예측

[3] 의료영상에서 병변 이미지 진단 보조

[4] 소셜미디어 데이터에 기반한 바이러스 확산, 증상 예측 및 대중적 이해도 조사






정확한 자원 조달과 대응을 위한, 감염률 및 환자 예후 예측


: 최근 여러 연구진들이 코로나 바이러스 감염률/확산률/예후예측 등의 다양한 모델을 제시하고 있음

: 신빙성 있는 결과를 얻기 위해, attention learning 및 transfer learning 등의 딥러닝 모델을 사용함

*attention learning

*transfer learning

: 아래의 논문들은 코로나 바이러스 예측에 필요한 데이터셋과 학습 기법을 소개함

1. Prediction of criticality in patients with severe Covid-19 infection using three clinical features

2. Finding an Accurate Early Forecasting Model from Small Dataset

3. 데이터셋





1. Prediction of criticality in patients with severe Covid-19 infection using three clinical features


: 우한의 임상데이터에 근거하여, 환자 예후 머신러닝 모델 개발

: Covid-19 감염 환자가 연령 및 기타 위험 요인에 따라, 생존할 수 있는지를 예측

: 코로나 바이러스에 대한 연령별 권고사항을 제시할 수 있음

https://www.medrxiv.org/content/10.1101/2020.02.27.20028027v2






2. Finding an Accurate Early Forecasting Model from Small Dataset


: 2019년 발병한 코로나 바이러스의 상대적으로 작은 데이터셋에 기반한 예측 모델링 제시

: 작은 데이터셋의 취약성을 보완하기 위한 3개의 방법론을 융합

https://arxiv.org/abs/2003.10776






3. 데이터셋


GitHub Coronavirus

COVID-19 Korea Dataset & Comprehensive Medical Dataset & visualizer

COVID-19 Vulnerability Index







#Reference

1) https://towardsdatascience.com/machine-learning-methods-to-aid-in-coronavirus-response-70df8bfc7861

2) https://www.medrxiv.org/content/10.1101/2020.02.27.20028027v2

3) https://arxiv.org/abs/2003.10776

4) https://wikidocs.net/22893

5) http://incredible.ai/artificial-intelligence/2017/05/13/Transfer-Learning/?

6) https://github.com/willhaslett/covid-19-growth

7) https://github.com/ThisIsIsaac/Data-Science-for-COVID-19

8) https://github.com/closedloop-ai/cv19index






Datasets and Applications of Machine Learning to the Coronavirus [2] End

BioinformaticsAndMe

Datasets and Applications of Machine Learning to the Coronavirus [1] Start

BioinformaticsAndMe





코로나바이러스 머신러닝 데이터셋 및 앱

[1] 항바이러스성 약물 연구 촉진을 위한, 단백질 구조 및 화합물 상호작용 예측

[2] 정확한 자원 조달과 대응을 위한, 감염률 및 환자 예후 예측

[3] 의료영상에서 병변 이미지 진단 보조

[4] 소셜미디어 데이터에 기반한 바이러스 확산, 증상 예측 및 대중적 이해도 조사






항바이러스성 약물 연구 촉진을 위한, 단백질 구조 및 화합물 상호작용 예측


: 코로나 바이러스에 대한 새로운 항바이러스 약물/백신을 개발하거나, 기존 약물의 적응증 확대를 목표로 둠.

: 단백질 구조와 화합물 사이의 상호작용을 예측하고자 딥러닝기술을 적용함.

: 아래의 데이터셋 및 앱은 합성곱신경망을 사용하여, 분자와 그 상호작용을 모델링하고자 함.

1. Deep Learning Based Drug Screening for Novel Coronavirus 2019-nCov (Zhang, et al.)

2. Predicting commercially available antiviral drugs that may act on the. novel coronavirus (2019-nCoV), Wuhan, China

3. Deepmind

4. 데이터셋





1. Deep Learning Based Drug Screening for Novel Coronavirus 2019-nCov (Zhang, et al.)


: 딥러닝을 사용하여 코로나 바이러스 환자에게 현재 적용 가능한 약물이 존재하는지를 예측함

: 단백질-리간드 상호 작용을 예측하기 위해, 합성곱 신경망을 기반으로한 DenseNet을 사용함

: 코로나 바이러스의 RNA서열과 화합물 정보를 지닌 모델을 생성하여, 어떤 약물이 가장 좋은 효과를 내는지 예측할 수 있음

: 아직 많은 연구가 필요하지만, 잠재적으로 Adenosine 및 Vidabrine이 코로나 약물 개발에 도움이 될것이라 예상

https://www.preprints.org/manuscript/202002.0061/v1





2. Predicting commercially available antiviral drugs that may act on the. novel coronavirus (2019-nCoV), Wuhan, China


: 약물 및 타겟 상호작용의 딥러닝 모델을 생성하여, 이미 시판되고 있는 항바이러스 약물을 예측.

: 'Molecule transformer-drug target' 또는 'MT-DTI'라 불리는 네트워크를 사용

: SMILES(Simplified Molecular-input Line-Entry System) 데이터셋을 모델 트레이닝에 이용

: '2019-nCoV 3C-유사 단백질 분해 효소'가  HIV/AIDS 치료제로 알려진 Atazanavir에 결합할 수 있음을 예측해냄

: https://www.biorxiv.org/content/10.1101/2020.01.31.929547v1.full





3. Deepmind


: Deepmind는 GISAid 및 AlphaFold 라이브러리 데이터를 이용하여, Covid-19 바이러스의 단백질 구조를 예측함

*GISAID - 세계보건기구(WHO)가 운영하는 유전자 정보사이트

*AlphaFold - 컴퓨터 화학을 위한 딥러닝 라이브러리

: 연구자들은 예측된 단백질 구조를 통해, 코로나 바이러스의 분자 구조에 대한 통찰력을 얻음

https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19






4. 데이터셋


Coronavirus Genome on Kaggle

COVID-19 Open Research Dataset Challenge

Chemdiv Database Database of different chemical compounds






#Reference

1) https://towardsdatascience.com/machine-learning-methods-to-aid-in-coronavirus-response-70df8bfc7861

2) https://www.preprints.org/manuscript/202002.0061/v1

3) https://www.biorxiv.org/content/10.1101/2020.01.31.929547v1

4) https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19

5) https://www.kaggle.com/paultimothymooney/coronavirus-genome-sequence

6) https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

7) https://www.chemspider.com/DatasourceDetails.aspx?id=111






Datasets and Applications of Machine Learning to the Coronavirus [1] End

BioinformaticsAndMe

KEGG pathway Start

BioinformaticsAndMe






KEGG(Kyoto Encyclopedia of Genes and Genomes)?


: KEGG pathway는 일본에서 만들어진 생화학 패스웨이 데이터베이스 (1995)

: 생물학 연구 분야에서 가장 많이 인용되는 DB 중 하나로 아래의 정보들에 기반을 둠

ㄱ) Systems information - 생화학 정보들 사이의 네트워크 상호작용 정보

ㄴ) Genomic information - 유전자 및 단백질 수준의 분자 단위 정보

ㄷ) Health information - 생체계에 영향을 주는 질병 및 약물 정보

ㄹ) Chemical information - 화학 물질 수준의 분자 단위 정보

https://www.genome.jp/kegg/pathway.html





KEGG Mapper Search&Color pathway


: KEGG Mapper에는 보유한 유전자들의 발현양에 따라, 패스웨이 특정 구간에 색을 표시하는 Search&Color pathway 웹툴이 존재

: 아래 유전자 발현 변화들이 Pathway 어느 구간에 영향을 미쳤는지 분석 수행

*green 색 - Fold change < 0 

*red 색 - Fold change > 0 

Gene symbol

NCBI gene ID

Fold change

Color

ATF3

467

-4

green

CLCN6

1185

-4

green

COA6

388753

3

coral

CYP4Z2P

163720

2

coral

EPHA2

1969

5

coral

ERRFI1

54206

2

coral

F3

2152

-2

green

GADD45A

1647

3

coral

GCLM

2730

-2

green

HSPA6

3310

2

coral

IER5

51278

3

coral

IFFO2

126917

3

coral

IFI44L

10964

3

coral

IL24

11009

3

coral

JUN

3725

-3

green

LINC00624

100289211

-4

green

MIR4427

100616390

-5

green

NBPF18P

441908

-2

green

NBPF25P

101929780

2

coral

NGF

4803

2

coral


: https://www.genome.jp/kegg/tool/map_pathway2.html


Search&Color pathway 분석 과정

1) 'NCBI gene ID'와 'Color' 열만 복사해 공란에 붙여 넣어 줌

2) Organism-specific 옵션은 hsa(homo sapiens)

3) Optional use of outside ID 옵션은 NCBI-GeneID

4) Use uncolored diagrams 옵션에 체크

5) Exec 실행

6) 매칭된 Pathway 리스트 확인

7) Pathway 결과 시각화










#좀 더 상세한 시각화 작업은 R의 pathview 패키지로 수행

https://bioinformaticsandme.tistory.com/104





#Reference

1) https://www.genome.jp/kegg/pathway.html

2) https://ko.wikipedia.org/wiki/KEGG

3) https://www.genome.jp/kegg/tool/map_pathway2.html




KEGG pathway End

BioinformaticsAndMe

CGI (Cancer Genome Interpreter) Start

BioinformaticsAndMe






CGI (Cancer Genome Interpreter)?


: CGI는 이미 검증된 암 변이 정보를 제공하고, 알려지지 않은 변이들의 Driver 가능성을 예측해주는 데이터베이스

: 다양한 임상 정보를 근거하여, 약물 반응성 유전체 바이오마커 정보를 제공

: 스페인 'IRB Barcelona'에서 관리

https://www.cancergenomeinterpreter.org/home




CGI 데이터


: CGI 홈페이지에서 'Cancer Biomarkers/Validated Oncogenic Mutations/Cancer Genes/Cancer Bioactivities' 항목으로 데이터 다운로드 가능

: 2019년 11월을 기준으로, CGI의 Cancer 바이오마커는 1,083개로 확인됨

: 2018년 초반 이후로는 업데이트가 멈춰있는 것으로 보임







#Reference

1) https://www.cancergenomeinterpreter.org/home

2) https://cancervariants.org/assets/docs/tutorials/CGI.pdf

3) https://blogs.biomedcentral.com/on-medicine/2018/03/29/introducing-the-cancer-genome-interpreter/




CGI (Cancer Genome Interpreter) End

BioinformaticsAndMe

CIVIC (Clinical Interpretation of Variants in Cancer) Start

BioinformaticsAndMe






CIVIC?


: CIVIC(Clinical Interpretations of Variants in Cancer)은 오픈소스 커뮤니티 기반의 암 임상 변이 데이터베이스

: 여러 암들의 Somatic variant, Germline variant에 관련된 진단/치료/예후 정보 제공

: 암 변이에 대한 임상적 evidence를 제공하여, 정밀 의료 시대의 정확한 암 변이 해석을 추구

https://civicdb.org/home






CIVIC 데이터


: '2019년 10월 기준으로 암 관련 유전자 402개, 변이 2357개, Evidence 6467개 등의 데이터 보유

: CIVIC 데이터는 매일 업데이트되며, 매달 1일에 최종 업데이트된 CIVIC 데이터를 다운받을 수 있음

*물론, 매일 업데이트되는 정보도 'Nightly'라는 항목으로 다운받을 수 있음

: Public API 제공 → https://griffithlab.github.io/civic-api-docs/





CIVIC Evidence Level


: CIVIC Evidence Level은 임상적 유용성에 따라, A~E로 분류됨

1) Level A - 해당 변이는 의학계에서 검증됨

2) Level B - 해당 변이는 임상시험 또는 환자데이터 정보에 근거함

3) Level C - 해당 변이는 임상저널에서 보고된 경우가 있음

4) Level D - 해당 변이는 In vivo 또는 In vitro 연구에서 관련성이 있었음

5) Level E - 해당 변이는 간접적인 증거를 보임








#Reference

1) https://civicdb.org/home

2) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5367263/




CIVIC (Clinical Interpretation of Variants in Cancer) End

BioinformaticsAndMe

'Public Database' 카테고리의 다른 글

KEGG pathway  (0) 2019.11.13
CGI (Cancer Genome Interpreter)  (0) 2019.11.06
GWAS Catalog  (0) 2019.10.23
OncoKB (Precision Oncology Knowledge Base)  (0) 2019.10.16
Clinvar (Clinically relevant variant)  (0) 2019.09.22

GWAS Catalog Start

BioinformaticsAndMe








GWAS Catalog


: Genome-wide association studies(GWAS;전장유전체연관분석연구)의 연구 결과들을 종합한 데이터베이스

: 미국 NHGRI(National Human Genome Research Institute) + 유럽 EBI(European Bioinformatics Institute) 주관

: 2019년10월14일 기준으로, 7796개 논문을 기반으로 159202개의 SNP 정보 보유 (p value < 1x10^5)

*Genome Assembly GRCh38.p12, dbSNP Build 151

: Cancer를 포함하여 17개의 인간 형질 범주로 SNP를 분류함

https://www.ebi.ac.uk/gwas/






GWAS Catalog 살펴보기


: 'rs7329174' SNP의 GWAS 결과를 예로 살펴보자

: 해당 SNP의 genome position, gene, allele frequency 등의 정보들이 출력



: 아래 Association 결과 테이블을 살펴보면,

1) Variant and risk allele: 연관된 SNP ID 및 변이된 뉴클레오티드

2) P-value: 해당 스터디에서 계산된 유의확률

3) P-value annotation: 해당 스터디에서 이용된 인구 집단

4) RAF: Risk Allele Frequency

5) OR: Odds Ratio

6) Beta: Beta-coefficient

7) CI: Confidence Interval(신뢰구간)

8) Mapped gene: 해당 SNP와 연관된 유전자

9) Reported trait: 해당 스터디에서 연구된 특성(Ontology개념)

10) Trait: 해당 스터디에서 연구된 특성

11) Study accession: 결과를 수집한 스터디 정보

12) Location: Genome에서 해당 SNP 위치





#Reference

1) https://www.ebi.ac.uk/gwas/

2) https://en.wikipedia.org/wiki/GWAS_Catalog

3) http://www.incodom.kr/GWASCatalog

4) https://www.revespcardiol.org/en-challenges-controversies-in-hypertrophic-cardiomyopathy-articulo-S1885585717303742




GWAS Catalog End

BioinformaticsAndMe

OncoKB (Precision Oncology Knowledge Base) Start

BioinformaticsAndMe







OncoKB (Precision Oncology Knowledge Base)


: OncoKB는 정밀 종양학 지식 기반으로 암 변이에 따른 약물 치료 효과 정보를 모은 임상 데이터베이스

: 뉴욕 암병원이자 연구기관인 Memorial Sloan Kettering Cancer Center에서 개발

: FDA/NCCN/ASCO/ClinicalTrials.gov/논문 등에서 642개 암 유전자 변이 정보를 모았고, 임상팰로우/교수진들에 의해 검토됨

: https://www.oncokb.org/






Levels of Evidence


: 약물 치료 정보는 임상적 활용성 근거에 따라 각각의 레벨 구간으로 분류됨

ㄱ) Level 1~2 → FDA에서 승인된 항암 변이 혹은 FDA 승인 약물 반응을 예측하는 치료 바이오 마커

ㄴ) Level 3    → 임상시험에서 테스트 중인 유망한 임상 효과를 가진 변이

ㄷ) Level 4    → 임상시험에서 테스트 중인  생물학 기전의 근거가 있는 변이

*해당 정보를 정확하게 활용하기 위해서는 문헌 참조

https://ascopubs.org/doi/full/10.1200/PO.17.00011









#Reference

1) https://www.oncokb.org/

2) https://ascopubs.org/doi/full/10.1200/PO.17.00011





OncoKB (Precision Oncology Knowledge Base) End

BioinformaticsAndMe

'Public Database' 카테고리의 다른 글

CIVIC (Clinical Interpretation of Variants in Cancer)  (0) 2019.10.29
GWAS Catalog  (0) 2019.10.23
Clinvar (Clinically relevant variant)  (0) 2019.09.22
GWASdb (SNP annotation database)  (0) 2018.09.11
SNPnexux (SNP Annotation database)  (0) 2018.08.23

Clinvar (Clinically relevant variant) Start

BioinformaticsAndMe






Clinvar

: Clinvar는 인간 유전자 변이와 질병에 대한 해석을 무료로 제공하는 공개 아카이브

: 국립 보건원(National Institutes of Health)에서 유지 관리

: 특정 변이의 임상적 중요성은 임상 시험 실험실, 연구 실험실, 전문가 패널들에 의해 평가됨

: 최근에는 유전자 검사를 받은 개개인의 phenotype 정보 업데이트





Clinvar는 크게 4가지 영역의 정보를 통합

1) Variation

: Variation은 Clinvar 데이터 모델에서 관련 Phenotype을 포함해 여러 정보를 연결짓는 KEY 역할

: 제출된 Variation은 dbSNP와 dbVar에 등록된 변이 위치와 비교됨

*등록된 변이라면, Reference ClinVar (RCV) record에 'rs number'가 추가됨

*새로운 변이라면, dbSNP와 dbVar에 제출되어진 후 고유한 Identifier가 역시 RCV에 추가됨


2) Condition

: Phenotype에 대한 자세한 설명은 MedGen에 근거하여 기술

: HPO(Human Phenotype Ontology) - 인간의 질병들의 표현형 특징에 대해 체계적으로 설정된 용어를 제공
: OMIM(Online Mendelian Inheritance in Man) - 인간 게놈과 유전성 질환, 형질의 카탈로그


3) Interpretation

: 변이에 대한 임상적 중요성을 해석

: 해석은 Submitter가 제출 마지막 시점에서 이해한 내용으로 유전 방식, 중증도 등의 여러 지표에 의해 평가

: 임상적 중요성에 대한 용어는 the American College of Medical Genetics and Genomics(ACMG;; 미국의학유전학회)의 가이드라인을 준수

: Submitter들 사이에서 의견이 엇갈리는 특정 변이는 'conflicts' 표시가 존재



4) Evidence

: 변이의 임상적 해석을 뒷받침하는 증거

: 잘 구조화된 양식 혹은 단순히 서술하는 방식으로 Evidence가 평가됨

: 가족력, 유전자검사, tumor/normal 조직 상태, 동물 모델 등의 정보 제공






#Clinvar 홈페이지

https://www.ncbi.nlm.nih.gov/clinvar/






#Reference

1) https://pdfs.semanticscholar.org/565c/cf9e9b306bc2d8263e35dc54641b129b2eee.pdf

2) https://product-docs.readthedocs.io/en/latest/api_library/system_api/ClinVar/

3) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5753237/

4) https://slideplayer.com/slide/12904816/

5) https://academic.oup.com/nar/article/42/D1/D980/1051029

6) https://www.acmg.net

7) https://ko.wikipedia.org/wiki/OMIM





Clinvar (Clinically relevant variant) End

BioinformaticsAndMe

'Public Database' 카테고리의 다른 글

GWAS Catalog  (0) 2019.10.23
OncoKB (Precision Oncology Knowledge Base)  (0) 2019.10.16
GWASdb (SNP annotation database)  (0) 2018.09.11
SNPnexux (SNP Annotation database)  (0) 2018.08.23
Enrichr (gene set enrichment analysis)  (0) 2018.08.03

+ Recent posts