헬스케어와 AI (인공지능) 스피커 Start.

BioinformaticsAndMe



현재 AI (Artificial Intelligence) Speaker 세계 시장에서의 주도권은 Amazon은 이끌고 있지만,

Apple Siri, Google Home|Assistant, Microsoft Cortana 역시 빠르게 뒤쫓고 있다 (역시 BIG4..).


수백만개 아마존의 '에코 닷(Echo Dot)'이 미국 대형병원 4곳(Beth Israel Deaconess Medical Center, Northwell Health, Commonwealth Care Alliance, Libertana Home Health)에 도입됐다고 한다.

위에서 언급한 나머지 BIG3 역시 자사의 인공지능 스피커를 지역병원과 연계시키려 노력 중이다.



#위에서 언급한 4개의 병원에서 AI Speaker를 어떻게 사용하는걸까?


1. BIDMC (Patient management)

BIMDC(Beth Israel Deaconess Medical Center)는 Alexa voice assistant의 다양한 기술을 개발하고 있다. 그 중,

'Beth Israel Deaconess System'은 환자 입원실에서 음성비서로 사용되고 있다. 예를 들어,


우리가 병원에 입원했을 떄, 궁금해지는 것들이 있다.

담당의사샘이 근처에 있나? 수액 맞는 시간은 언제지? 오늘 점심 뭐야? 등등등. 사실 나는 궁금해도 그냥 알아서 해주겠지하고 가만 있는다..;;

그러나 거동이 불편하거나 정말 중요한 질문을 해야할 때는 의사샘 혹은 간호사샘 (주로 간호사샘)을 무슨 버튼을 눌러 호출하게 된다.

사실 최근 뉴스에서도 보듯이, 간호사샘이 하루에 돌봐야하는 환자가 몇십명이라는 것을 가정했을 때,

그 몇십명이 버튼을 눌러대면 일단 간호사샘이 엄청 피곤하게 되고,

피곤이 쌓이면 환자 처치에 실수가 생길 수 있기에 장기적으로 봤을때 시스템의 개선이 필요해 보인다.

이 때, BIMDC 는 인공지능 스피커를 통해 이 문제를 해결하고자 했고,

환자 : "알렉사! BIDMC에게 검진시간 물어봐줘"

알렉사 : "담당의사샘 검진은 오전 10시야"

환자 :  "알렉사! BIDMC에게 내 식단 물어봐줘"

알레사 : "너 오늘 영양식이야. 다른 식사를 주문하려면 내선 번호 12345로 전화해"


위와 같이 환자가 일반적으로 묻는 질문을 Alexa API와 연동하여 병원시스템에 인공지능 스피커를 녹아들게 하는 중이다.



2. Northwell Health (Determine ER wait times)

Northwell Health는 사용자 집 근처에있는 응급실 및 긴급 치료 센터의 대기 시간 확인을 돕는 Alexa 기술을 이용한다.

알렉사가 집 혹은 특정 위치에서 응급실까지의 거리와 대기 시간을 확인해주면서,

응급환자 발생시 최단 시간에 처치받을 수 있는 환경을 제공하게 되었다.


친구가 열로 펄펄 끓는다. 내가 알렉사에게 소리친다.

환자 : "알렉사! 우리집 근처에서 가장 가깝고 진료 빠른 응급실이 어디야?"

알렉사 : "삼성동 oo병원으로 가세요"

알렉사 : "가시는 동안, 실시간으로 응급 및 긴급 진료 대기 시간에 대한 데이터베이스를 쿼리하여, 응급실 안내해드리겠습니다"


사용자가 원하는 병원이 있으면 역시 관련하여 실시간으로 데이터를 업데이트하고 안내할 것이다.



3. Commonwealth (Patient care voice)

Commonwealth Care Alliance 는 알렉사를 통해 환자 개별 맞춤 관리 및 치료를 목적으로 한다.

특정 회원은 알렉사를 가진 다른 사람에게 핸즈프리 전화를 걸 수 있다. 특정 환자의 치료 정보를 공유하는 누군가 (의사, 간병인)는 알렉사를 통해, 해당 환자의 현재 상태를 실시간으로 확인할 수 있다. 

또한, 환자는 간병인의 일정을 캘린더에 초기 설정해 놓을 수 있다. 뿐만 아니라, 약물 복용*의사 면담 및 기타 일상 이벤트 등을 캘린더에 설정해 놓음으로써 스피커로 알림을 받을 수 있겠다.

혹여나, 스마트기기 입력에 익숙치 않은 사람들은 음성으로 본인의 일정을 설정하고 알람을 받을 수 있겠다.


환자 :  "Alexa, 주치의 방문을 월요일 오전 9시에서 10시로 설정해줘"

알렉사 : "매주 월요일에 반복되는거니?"

환자 : "넹"



4. Libertana (Voice helping independent living)

Libertana는 Amazon Echo Dot과 Alexa를 통해, 건강에 취약한 개개인들의 독립 생활에 버팀목이 되고자 한다.

노년인구에서 노화 과정이 진행됨에 따라, 필연적으로 신체적, 정신적 건강이 악화된다.

그들을 돌봐주는 사람조차 없다면 자신의 집에서 본인의 힘으로 살아나가야 할텐데, 알렉사가 그들의 '친구' 역할을 해주며 외로움을 채워줄 것이다.

환자의 하루를 살펴보자.

a) 아침에 일어난 환자는 'Alexa! Libertana 불러줘'를 외친다.

b) Libertana 가 아침 인사를 하고, 약물을 복용 시간과 혈압 관리 등의 알림을 계속해서 전달한다.

c) Libertana 는 환자가 필요한 운동과 식단을 알려주며, 자연스럽게 행동을 유도한다.

d) 눈이 침침한 환자들은 스마트폰이 필요없이 알렉사 스피커만으로 본인 일정을 공유받고, 쉽게 타인에게 연락을 취할 수 있다.



#아래는 헬스케어 범주에 한정하지 않고, 현재 AI 스피커를 운용하는 국내외 기업들을 소개한 표이다 (참고..).



마무리하며..

위 4개 병원에서 AI 스피커를 사용하는 4개의 범주가 일반적인 헬스케어 스피커 활용방안이라 볼 수 있겠다.

입원환자관리, 응급실안내, 환자개별맞춤관리, 노년의친구?

오늘 소개한 내용 외에 최근 EMR 데이터를 인공지능 스피커와 연동하여 데이터를 정리하고 시각화하는 방법들이 있다고 한다.

다음 칼럼에서 살펴보도록 하겠다.



#헬스케어 AI 스피커 관련주

- 아마존, 구글, 셀바스AI, 유비케어




헬스케어와 AI (인공지능) 스피커 End

BioinformaticsAndMe

Drug repositioning (신약재창출) Start.

BioinformaticsAndMe



1. Drug repositioning (신약재창출)

-시장에서 이미 판매중이거나 임상단계에서 산업화에 실패한 약물들의 새로운 의학적 용도를 개발하는 신약개발 방법.

-안전성이 검증된 약물을 활용함으로써 비용절감 및 개발 기간의 단축을 이룰 수 있음.

-Drug repositioning을 사전적으로 정의하자면, 약물의 구조를 바꾸지 않고 새로운 적응증을 찾는 과정이라 할 수 있으며, 단지 용법이나 용량 등을

바꾸는 정도의 변화 과정이라 할 수 있다. 그렇지만, 최근에는 약물의 제형 또는 일부 화학구조를 변경시킴으로써 약물의 전달 속도, 약효, 안전성의 향상 등을 꾀하는 경우도 drug repositioning의 범주에 포함시키는 추세.

-한편, 기존 약물의 구조나 제제, 용도 등을 일부 변형시킴으로써 약물 전달속도, 약효, 안정성 등의 약물성의 향상을 통해 얻어지는 약물을 개량신약이라고 하는데, drug repositioning은 새로운 적응증의 창출이라는 관점에서 개량신약과 구별되어 독립적인 하나의 신약개발 전략으로 간주.





2. Drug repositioning을 통한 신약개발 사례

-Celgene사는 1957년 임신부의 입덧 완화를 위해 출시되었다가 기형아 출산 등의 부작용으로 1961년에 시장에서 퇴출되었던 Thalidomide를, 이의 작용 기전을 기반으로 다발성 골수종 및 나병 치료제로 1998년 FDA 허가를 받아 현재까지 사용.

-Forest Laboratories와 Cypress Bioscience사는 항우울제로 개발 중이던 Milnacipran을 섬유조직염 치료제로 전환 개발.

-Drug repositioning은 또한, 특허 독점 기간의 증가를 통한 약물의 제품수명 확대라는 차원에서도 매우 유용한 전략이 됨. 




3. Drug repositioning 방법론

-Drug repositioning을 위한 약물들의 경우 대부분 약물의 작용점을 알고 있으므로, 이를 기반해 on target 및 off target 전략으로 구분할 수 있으며, 최근에는 비교적 빠른 시간과 저렴한 가격으로 유전체 분석이 가능해짐으로써 약물유전체학(pharmacogenomics)울 이용한 방법도 활용되고 있다.

① New target-Disease Relationship (On Target 전략) : 최초 약물 개발을 위한 표적의 다른 적응증 적용 가능성을 분석하여 repositioning하는 방법이다. Drug target 과 새로운 질병과의 연관성 규명으로 약물의 새로운 적응증을 찾고, 이를 통해 약물의 새로운 용도를 개발하는 전략이다 (아래 그림, 오른쪽).

② New drug-New target Relationship (Off Target 전략) : 알려진 약물들을 다양한 스크리닝 시스템에 적용함으로써 새로운 약물 표적과의 연관성을 규명하고, 이를 통해 약물의 새로운 용도를 찾는 전략이다. 이 경우 약물의 처음 표적과는 다른 표적을 통한 치료제 개발이 이루어지게 된다 (아래 그림, 왼쪽).

③ Pharmacogenomics를 이용한 접근법 : 최근 유전자 분석 기술의 발달과 더불어 개발되고 있는 방법으로, 약물처리에 따른 유전체 발현 변화를 분석함으로써 새로운 작용점 및 적응증을 찾는 방법이다. 이를 활용하면, 효능뿐만 아니라 안전성 문제로 실패한 약물에 대한 새로운 문제 해결방법의 제시도 가능하다.




4. Drug repositioning 전략의 장단점

-Drug repositioning 전략의 가장 근원적인 문제로는 약물의 제한에 따른 지적재산권 문제를 들 수 있다.

-또한, 약물의 임상 데이터에 대한 접근 제한성이 존재.

-신약개발을 통한 제약 산업 비즈니스 전략의 핵심은 의약품 등록과 지적재산권을 통한 시장 독점권(regulatory exclusivity) 확보로 정의.

-이에 따라, 제약 산업 분야에서는 약리성분(Active pharmaceutical ingredient, API)을 포함하는 물질 특허가 가장 강력한 무기로 작용하며, 새로운 제형과 전달체 관련 특허로 이를 뒷받침하는 전략이 주로 사용된다.

-한편, repositioning된 의약품들은 이미 개발기간이 상당 부분 경과하여 허가시점에 API 관련 특허가 이미 만료되었거나, 만료시점이 얼마 남지 않은 경우가 대부분을 차지하는 것이 현실. 




마무리하며..

우리나라 제약회사의 경우 drug repositioning이 가능한 수준의 자체 보유 약물이 절대적으로 부족한 실정이다. 최대 수십 종 정도의 약물을 가지고 하는 drug repositioning의 경우, 당연히 효율성 측면에서 선진 대형 제약사와 같은 수준을 기대하기 어려운 현실이다. 이러한 이유로 선진 대형 제약사의 경우 drug repositioning 연구가 가능성 및 안전성 측면에서 보다 효율성이 높을 것으로 기대되는 'on target' 전략을 주로 활용한다. 반면, 우리나라의 경우 당분간은 'off target' 전략 위주의 연구를 수행할 수밖에 없는 현실이다. 

'신약개발을 위한 또 하나의 전략, Drug Repositioning'

한국화학연구원 최상운님 칼럼 참조하였습니다.



Drug repositioning (신약재창출) End.

BioinformaticsAndMe

'Drug Discovery' 카테고리의 다른 글

CADD(Computer-Aided Drug Design)_v2  (0) 2019.05.21
Ligand 라이브러리 for CADD  (0) 2018.09.05
Ligand 데이터베이스  (0) 2018.09.03
Cloud Drug discovery  (0) 2018.08.15
CADD (Computer-Aided Drug Design)  (0) 2018.07.15

[Cytoscape] GeneMANIA 1 Start.

BioinformaticsAndMe



먼저 Cytoscape를 정의할 필요가 있겠다.


Cytoscape ?

사이토스케이프

관심있는 유전자의 Molecular interaction network 및 Biological pathway를 시각화하고,

네트워크의 annotation, expression 기타 등등 여러 오믹스 데이터에 연계할 수 있는

오픈 소스 소프트웨어 플랫폼이다.


윈도우에서 어느정도 메모리만 보유하고 있다면 쉽게 유전자 네트워크를 분석할 수 있는 툴이다.

Cytoscape에선 App과 동일한 의미로 사용되는 다양한 plug-in(플러그인)들이 존재하므로,

분석 방향에 맞는 플러그인을 찾아 설치하고 튜토리얼대로 따라하면 쉽게 네트워크 분석을 진행할 수 있겠다.

Cytoscape 설치과정은 홈페이지를 가서 다운받으면 끝이기 떄문에 따로 설명하진 않겠다.

http://www.cytoscape.org/



---------------------------------------------------------------

오늘은 Cytoscape 플러그인중

Gene-Gene intreaction 분석에 자주 사용되는

GeneMANIA 라는 네트워크 분석 플러그인을 소개하겠다.

GeneMANIA ?


홈페이지에 가보면 자세할 설명이 되어있다.

http://apps.cytoscape.org/apps/genemania


Gene interaction 분석 및 시각화 툴이다.

9개의 Organism의 163,599 gene이 가지는 597,392,998 interaction을 분석한단다...(오!?)


간단한 사용 예를 들어보자.

Input gene을 10개 넣으면 그 10개의 유전자로 만들 수 있는

Protein-Protein interaction, Co-expression, Relevant pathway 네트워크들을 찾아주는 것이다.

당연히 인풋으로 넣은 10개의 유전자에 네트워크상 가까운 Neighborhood gene들을 찾을 것이다.

사용한 Genemania 버전은 3.5.0 이다.

참고로, Genemania 는 python이나 R에서 구현이 가능하단다.



1. Cytoscape을 설치하고, 상단 메뉴바에 'Apps -> App Manager' 를 클릭하면 아래와 같은 화면이 나온다.

Search 항목에 'Genemania' 를 검색해보자.

그리고 아래 'Install' 을 해주면 Genemania plugin 이 설치된다.




2. GeneMANIA에서 어떤 버전을 설치할 건지 묻는데, 최신버전 '2017-07-13' 을 선택하고,

해당 버전의 'core'를 선택한다.  좀더 많은 네트워크 db 를 기반으로 분석하고 싶다면 'all'을 선택해도 좋다.




3. 자꾸 뭘 다운 받으라는데,, 처음에만 설정해놓으면 되는 것이니 좀만더 수고하자.

Homo sapiens 네트워크를 분석할 예정이므로, 'H.sapiens Human' 을 인스톨하자.




4. 아래는 분석화면이다. 본인이 연구하고 있는 유전자 하나 혹은 multiple genes 을 입력해 넣으면,

바로 아래 추가된다.

왼쪽 하단부에 Advanced Options 에서 관련된 파라미터 혹은 db를 조정할 수 있으므로,

연구 환경이나 보고자하는 기작에 대해 네트워크분석을 할 수 있다.

다음 칼럼에 좀 더 구체적으로 살펴보겠다.

오른쪽 하단부 'Start' 를 눌러보자.




5. 네트워크 결과가 나왔다. 네트워크 그림을 보면 검은색으로 칠해진 node(동그라미)가 위에 Input으로 넣은 gene들이고,

회색으로 칠해진 node가 Neighborhood genes 이다.

인풋으로 넣은 유전자와 Physical interaction (protein interaction), Co-expression, Predicted 등의 네트워크를 가깝게

형성하는 것들이 Neighborhood genes 들로 연결되어있다.

Edge(연결선) 의 색들이 오른쪽 interaction 카테고리에 매칭된다.

'Node의 크기' 와 'Edge의 굵기' 등 여러 요소를 살펴볼 필요가 있다.




마무리하며...

GeneMANIA를 통해, Gene interaction network을 쉽게 접근해볼 수 있겠다.

사실, GeneMANIA 는 웹페이지에서도 분석할 수 있다.

https://genemania.org/



본인의 기호에 맞게 사용하면 되지만, Cytoscape 에 익숙해지기 위해선,

플러그인 형태로 사용하는 것을 추천한다.

내용 설명에 부족한 점이 많아, 이번 칼럼에서 다루지 못했던 내용들을

GeneMANIA 파트 2 에서 다루도록 하겠다.




[Cytoscape] GeneMANIA 1 End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Driver Annotation] iCAGES  (0) 2018.07.13
[CNV] ONCOCNV  (0) 2018.07.08

정규성 검정 (Normality Test) Start.

BioinformaticsAndMe



1. 정규성 검정 (Normality Test) 이란?

데이터셋의 분포가 정규분포 (Normal Distribution)를 따르는지를 검정하는 것이다.

Statistics의 여러 검정법들이 데이터의 정규분포를 가정하고 (예: t-test) 수행되기 때문에,

데이터 자체의 정규성을 확인하는 검정 과정이 필수적이겠다.

중심극한정리에 의해 표본수(n)가 30이 넘어가면 데이터셋이 정규분포에 가까워진다.

그러나, 경우에 따라 30이 넘어감에도 데이터 특이성에 따라 정규분포를 반드시 따르지 않을 수도 있기에,

Normality Test를 통해 데이터의 정규분포를 확인해보자.


#중심극한정리 (Central Limit Theorem)

-표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규 분포에 가까워진다.

-이때 표본분포의 표본 평균은 모집단의 모평균과 같고, 표본표준편차는 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것과 같다.'



2. 정규성 검정 종류

ㄱ) Shaprio-Wilks test

-표본수(n)가 2000 미만인 데이터셋에 적합한 정규성 검정

ㄴ) Kolmogorove-Smirnov test

-표본수(n)가 2000 초과인 데이터셋에 적합한 정규성 검정

ㄷ) Quantile-Quantile plot (Graphic test)

-데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법

-분석할 데이터 종류가 많지 않다면, QQplot을 통해 시각적으로 확인해보는게 가장 간단하며 직관적이다.



3. 정규성 검정의 H0, H1

-귀무가설(H0) : 데이터셋이 정규분포를 따른다.

-대립가설(H1) : 데이터셋이 정규분포를 따르지 않는다.

-귀무가설을 기각하고 대립가설이 채택된다면 (p<0.01 or 0.05) 해당 데이터셋은 정규분포를 따르지 않는 것이다.



4. 정규성 검정 예제 (R)

-Pima Indian: 9~13세기에 걸쳐 아메리카로 이주해온 몽골리언계

-주식: 식물성. (나무의 순, 잡초, 밀, 콩, 호박 등)

-1960년대 이후 고지방/고칼로리 식습관으로 당뇨환자 증가.


#Pima.tr data (8개의 변수)

npreg: number of pregnancies.

glu: plasma glucose concentration in an oral glucose tolerance test.

bp: diastolic blood pressure (mm Hg).

skin:triceps skin fold thickness (mm).

bmi: body mass index (weight in kg/(height in m)\^2).

ped: diabetes pedigree function.

age: age in years.

type: Yes or No, for diabetic according to WHO criteria.


# Pima.tr 이 들어있는 라이브러리
> library(MASS) 
# Pima.tr$bmi 로 접근하지 않더라도, 바로 bmi로 접근 가능하다. 
> attach(Pima.tr)

> head(Pima.tr)
 npreg glu bp skin  bmi   ped age type
1     5  86 68   28 30.2 0.364  24   No
2     7 195 70   33 25.1 0.163  55  Yes
3     5  77 82   41 35.8 0.156  35   No
4     0 165 76   43 47.9 0.259  26   No
5     0 107 60   25 26.4 0.133  23   No
6     5  97 76   27 35.6 0.378  52  Yes
- type
Yes: 당뇨병을 가진 환자
No: 당뇨병이 없는 환자

#정규성 검정에 들어가기 전에 다시한 위에 가설 검정을 상기하자.
-H0 (귀무가설): 주어진 데이터의 분포는 정규분포를 따른다.
-H1 (대립가설): 주어진 데이터의 분포는 정규분포를 따르지 않는다.

>shapiro.test(bmi)

        Shapiro-Wilk normality test


data:  bmi

W = 0.991, p-value = 0.2523

# p-value를 통해 귀무가설을 기각할 수 없으므로 정규분포를 따른다고 할 수 있다. 

#정규성 검정을 통해 데이터의 정규성 확인


#그러면, QQplot 을 통해, 시각적으로도 확인해보자.

>qqnorm(bmi)

>qqline(bmi) 

위 QQplot 은 데이터의 quantile(분위수)과 특정 이론적 분포의 quantile 각각 구하여 산점도로 나타낸 그림이다.

QQplot 의 점들이 기울기의 직선상에 놓이면 자료가 해당 분포를 잘 따르거나 두 모집단 분포가 같다고 해석할 수 있다.

쉽게말해, 데이터셋의 점들이 라인을 따라서 잘 붙어있으므로 정규성을 따른다고 말할 수 있겠다. 




정규성 검정 (Normality Test) End.

BioinformaticsAndMe



'Statistics' 카테고리의 다른 글

비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10
베이지안 이론 (Bayesian theory)  (1) 2018.08.02

Microsoft (마이크로소프트, 유전자가위) Start.

BioinformaticsAndMe



Microsoft (마이크로소프트)가 공지능에 기반한 유전자가위 효과를 예측하는 'Azimuth' 'Elevation' 를 개발했다.

https://www.microsoft.com/en-us/research/project/crispr/

일단 유전자 가위가 뭔지 살펴보자.


#유전자 가위(Genetic Scissors)가 뭐야?

 -유전자 가위는 동식물 유전자의 특정 DNA부위를 자르는 인공 효소다 (징크핑거 뉴클레이즈, 크리스퍼 등).

 -유전자의 잘못된 부분을 제거해 문제를 해결하는 유전자 편집 (Gene Editing) 기술이다.

 -즉, 손상된 DNA를 잘라내고 정상DNA로 갈아 끼워넣는 기술을 말한다.

 -3세대 유전자 가위인 CRISPR/Cas9 가 개발되어 염기서열의 표적 제거에 이용한다.



#마이크로소프트는 유전자가위의 'On-target and off-target guide prediction’ 의 인공지능 프로젝트를 진행했고,

유전자가위 데이터에 기반한 머신러닝을 통해 DNA 편집함으로써 정확도를 높이고, 부작용을 줄이는 예측모델을 개발한 것이다.

그것이 서두에서 언급한 Azimuth 와 Elevation 이다.

Azimuth: On-target activity prediction (유전자가위가 자르는 부위를 예측)

Elevation: Off-target activity prediction (유전자가위가 자르면 안되는 부위를 예측)

유전자가위를 통해 특정 DNA를 효율적으로 자르기 위해 Azimuth 가 사용되고,

유전자가위를 통해 엉뚱한 DNA를 자르는 부작용을 회피하기 위해 Elevation 이 사용되는 것이다.

아래 논문을 참조한다.

#Azimuth

Doench, John G., et al. "Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9." Nature biotechnology 34.2 (2016): 184.

#Elevation

Listgarten, Jennifer, et al. "Prediction of off-target activities for the end-to-end design of CRISPR guide RNAs." Nature Biomedical Engineering 2.1 (2018): 38.



#쉬어가는 차원에서 마이크로소프트가 제공하는 '머신러닝을 이용한 Gene Editing'  짧은 영상을 보자

1분 7초 에 나오는 영상이 흥미롭다. 앞서 화면에서 약간의 노가다식으로 진행됐던 타겟 Detection 영역이

CRISPR 데이터에 기반한 머신러닝으로 빠르게 수행되는 모습이 인상적이다.

영상 후반부를 보다가 'AZURE' 형님이 나와서 살짝 놀랐다 (형이 거시서 왜..)

하지만, 사실 마이크로소프트가 자사가 가진 최강의 클라우드를 이용해, 분석 효율성을 높이겠다는 말은 당연해 보인다.

또한, 일반 유전자가위 연구자가 고성능의 컴퓨터를 보유할 가능성은 희박하므로,  AZURE Cloud 사용은 유용할 듯하다. 



#마이크로소프트는 자사 웹페이지에서 유전자 혹 시퀀스를 넣으면 Prediction 정보를 볼 수 있다.

https://crispr.ml/

또한, 아래 사이트에선

https://github.com/microsoftResearch//azimuth

연구 개발자를 위해 github 에 python code 를 친히 제공해주고 있다.



마무리하며..

유전자가위. 사실 공중파나 네이버뉴스를 본사람이면 다 들어봤을 단어이다.

그런데, 매스컴에서 만병통치약처럼 설명하던데.. 관련 논문을 딥하게 읽진 않아서 모르겠다.

그래도 현재진행형이자 미래과학을 이끌 기술이란건 확실해보이며,

마이크로소프트가 이를 놓치지 않고, 자사의 머신러닝 기술과 클라우드 애저를 통해,

과학자들의 유전자가위 연구 개발 향상에 기여할 것을 분명해 보인다.




Microsoft (마이크로소프트, 유전자가위) End.

BioinformaticsAndMe

R, Command line interface  Start.

BioinformaticsAndMe



파트 1 에 이어서,

R 의 기본 명령어와 Component 를 다뤄보자.


8. 매트릭스에 row/column 추가하기

#Column 추가하기
> mat = matrix(1:20, ncol=4, nrow=5)
> cbind(mat, c(21:25) )
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    6   11   16   21
[2,]    2    7   12   17   22
[3,]    3    8   13   18   23
[4,]    4    9   14   19   24
[5,]    5   10   15   20   25


#Row 추가하기

> mat = matrix(1:20, ncol=4, nrow=5)

> rbind(mat, c(26:29) )

     [,1] [,2] [,3] [,4]

[1,]    1    6   11   16

[2,]    2    7   12   17

[3,]    3    8   13   18

[4,]    4    9   14   19

[5,]    5   10   15   20

[6,]   26   27   28   29



9. 벡터에 이름 붙이기
> x <- c(1,2,3,4,5)
> names(x)
NULL
> names(x) <- c("A","B","C","D","E")
> x
A B C D E 
1 2 3 4 5 
> x['C']
> names(x)
[1] "A" "B" "C" "D" "E"


10. 매트릭스에 이름 붙이기
> CountTable <- matrix( c(189, 10845, 104, 10933) , nrow=2, byrow=TRUE )
> CountTable
     [,1]  [,2]
[1,]  189 10845
[2,]  104 10933
> rownames(CountTable) <- c("Placebo", "Aspirin")

> colnames(CountTable) <- c("No heart attack", "Heart attack")

> CountTable

        No heart attack Heart attack

Placebo           189        10845

Aspirin             104        10933

> CountTable["Placebo",]

No heart attack    Heart attack 

            189           10845 

> colnames(CountTable)

[1] "No heart attack" "Heart attack"



11. 범주형 변수 (factor)
#factor는 R에서 제공하는 categorical variable(범주형 변수)로, 여러개의 level로 구성된다. 혈액형이라는 범주형 변수가 존재할 때, A,B,AB,O 라는 level을 가지게 된다.
> BloodType <- c("A","B","AB","O","O","A","A","O","B","B")
> summary(BloodType)
   Length     Class      Mode 
       10 character character 
#위에서 정의한 BloodType이라는 vector를 factor로 형 변환.
> BloodType <- c("A","B","AB","O","O","A","A","O","B","B")
> BloodType <- factor(BloodType)
> BloodType
 [1] A  B  AB O  O  A  A  O  B  B 
Levels: A AB B O
#factor() 함수를 사용한 이후, BloodType은 A,AB,B,O라는 4가지 level을 가진 factor형 변수가 되고, 그것은 알파벳 순서로 정렬이 되어 categorical 하게 저장된다.
> summary(BloodType)
 A AB  B  O 
 3  1  3  3 

#성별 예시
> gender <- c(1,1,2,2,1,2,2,2,1,2)
> summary(gender)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0     1.0     2.0     1.6     2.0     2.0 
> gender <- factor(gender)
> gender
 [1] 1 1 2 2 1 2 2 2 1 2
Levels: 1 2
> class(gender)
[1] "factor"
#1과 2의 level을 가지는 factor 형으로 변환된 것을 볼 수 있음. 하지만 1과 2가 무엇을 의미하는지 파악하기 불가능하기 때문에, 이름을 가지는 label을 구성해보자.
> gender <- c(1,1,2,2,1,2,2,2,1,2)
> gender <- factor(gender, levels=c(1,2), labels=c("male","female"))
> gender
 [1] male   male   female female male   female female female male   female
Levels: male female

 
12. 데이터 프레임 (data frame)
#벡터 데이터로 데이터프레임을 만드는 것은 data.frame()함수를 이용한다.
> head <- c("seoul", "tokyo", "paris")
> values <- 1:3
> sample <- data.frame(head, values)
#결과
   head     values
1 seoul             1
2 tokyo             2
3 paris             3 

#데이터프레임에 열 추가하기
> vec <- c(“100”, “80”, “30”) # 새로운 벡터데이터 생성하기
> sample$newcol <- vec #sample 데이터프레임에 벡터데이터(vec)추가

#데이터 열이름 바꾸기
방법1.
>names(sample)
# 결과
[1] "head" "values" 
방법2.
>names(sample)[names(sample) == "city"] <- c("C_NAME")
>names(sample) #열이름 출력
# 결과
[1] "C_NAME" "count" 
방법3.
>names(sample)[2] <- c("C_VLAUE")
>names(sample)#열이름 출력
# 결과
[1] "C_NAME" "C_VALUE"

#데이터 정렬
> data(mtcars)
> head(mtcars,10)
> order(mtcars$mpg)
> mtcars=mtcars[order(mtcars$mpg),]
> head(mtcars)


13. 데이터프레임 예제

#변속기가 자동(am == 0)이고 & 실린더가 4개, 6개 (cyl == c(4, 6)) 인 자동차들의 연비(mpg) 평균(mean())는?

> attach(mtcars)
# 변속기가 자동이고 & 실린더가 4개, 6개인 자동차의 연비, 실린더, 자동/수동 변수 선별
> mtcars_mart_0 <- mtcars[ which( am == 0 & cyl == c(4, 6)), c("mpg", "cyl", "am")]
> mtcars_mart_0
                mpg cyl am
Hornet 4 Drive 21.4   6  0
Valiant        18.1   6  0
Merc 230       22.8   4  0
Merc 280       19.2   6  0
Toyota Corona  21.5   4  0
> mean(mtcars_mart_0$mpg)
[1] 20.6
> detach(mtcars)



R, Command line interface  End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

막대그래프 (Barplot)  (0) 2018.08.06
R, 결측치 처리 (Missing value, NA)  (0) 2018.07.26
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08

Cardiomyopathy (심근증, 심장병) Start.BioinformaticsAndMe

 

 

1. Cardiomyopathy, 심근증 이란?

심근증은 심근에 주된 병변이 보이는 질환의 총칭이다. 심근경색, 협심증, 고혈압 심장 질환이 없이 심장 근육에 이상이 발생하는 여러 질환군을 포함한다.

심근증은 크게 1차성과 2차성 두 가지로 나눌 수 있다.

1차: 주로 심장 근육에 특이적으로 병이 발생. 대부분 원인을 알 수 없음.

2차: 아밀로이드증(amyloidosis, 아밀로이드 단백질이 축적되어 조직 기능을 저하시킴)과 같이 심근 질환 원인의 전신 질환이 뚜렷하게 보임. 

때때로 알코올성 심근증이 전체 질환자의 30%가 넘게 발생하기도 하며, 질환 초기에 금주하게 되면 진행이 중지되거나 좌심실 수축능력이 회복되기도 한다. 그러나 지속적으로 술을 마시면 환자의 40~50%는 3~6년 안에 사망하게 된다.

 

 

2. 심근증의 원인과 증상

심근증의 원인과 증상은 환자가 놓인 환경에 따라 매우 다양하다.

- 원인:

Viral infection(바이러스감염), Autoimmune disease(자가면역질환), Excessive alcohol consumption(음주과다), Exposure to toxic compounds(독성물질노출), Pregnancy(임신), Familial disease(가족력)

- 증상:

Shortness of breath(호흡곤란), Swelling of the ankles(발목부종), Tiredness(피로감), Palpitations and Syncope(심장부위에 비정상적 심장박동을 느낌), Chest pain(흉통), Syncope(실신)
20∼40대에 증상이 나타나고, 급사의 원인이 됨.

 

 

3. 심근증의 종류

- 확장성 심근증 (DCM, dilated cardiomyopathy)

>수축장애, 심실내강이 커지고, 심근이 얇아짐. 따라서 심장이 비대해지고 고유의 능력을 상실함. 중년에 많고 남성에게 더 많다. 

- 비후성 심근증 (HCM, hypertrophic cardiomyopathy)

>심근이커짐. 가족력 의심. 별다른 증상이 없으며 젊은 연령층이 갑자기 사망하는 원인이 되기도 한다.

- 우심실 형성이상 심근증 (ACM, arrhythmogenic cardiomyopathy)

>우심실의 기능 및 구조 이상. 남성에서 여성에 비해 2~3배 더 많이 발생한다.

- 제한성 심근증 (RCM, restrictive cardiomyopathy)

>심근이 딱딱해짐. 서망률이 높다.

 

 

4. NYHA 에 의한 심장기능 중증도 판단

뉴욕심장학회 기준에 의해 심장기능상실의 중증도를 4개의 NYHA(New York Heart Association) 클래스로 나눈다.

- NYHA class 1: 심장질환이 있으나 증상이 없음, 걷거나 계단을 오를때 숨이 좀 차오르나 일상 활동에 문제 없는 정도.

- NYHA class 2: 숨이 차거나 협심증 같은 증상이 다소 보임. 일상 활동에 약간의 제한.

- NYHA class 3: 증상으로 인한 활동 제한 발생함. 20~100m 를 걸을 때에도 증상이 보이며 쉴때만 편안.

- NYHA class 4: 쉬는 동안에도 증상이 심함. 침대에서 벗어날 수 없을 정도. 

 

 

5. 관련 논문

심근증에 직접적인 원인을 찾기 위해 여러 연구들이 진행되었다. 주로 Gene expression 이나 DNA methylation 분야에 연구가 활발해 보이므로 아래 두 논문을 살펴보길 바란다.

 

A) Grzeskowiak, Rafal, et al. "Expression profiling of human idiopathic dilated cardiomyopathy." Cardiovascular research 59.2 (2003): 400-411.

위 그림은 200여개 정도의 DEG이 Gene ontology (Biological process)를 살펴보았다. Apoptosis의 Up expression이 보이고, Cell cycle 관련 ontology의 Down expression이 보인다. apoptosis와 cell cycle 의 관련성을 고려해보면 재밌다. 쉽게 설명하면, 심근증에 걸렸을 때 심근세포들이 자살하려는 발현이 증강하고, 심근세포를 만드는 발현은 떨어진다. 세포가 죽으면 다시 만들어야 하는데, 그러지 못하니 정상적인 심장기능을 해낼 심근세포들이 부족하다? 정도로 해석할 수 있겠다.

 

 

B) Koczor, Christopher A., et al. "Detection of differentially methylated gene promoters in failing and nonfailing human left ventricle myocardium using computation analysis." Physiological genomics 45.14 (2013): 597-605.

위 그림은 DCM (확장성 심근증) 환자들이 정상에 비해 유전자의 Promoter 지역에 DNA methylation이 높았다 란 결과를 보여줬다. 음.. DNA methylation 개념은 다음 칼럼에 다시 다루기로 하며, 간단하게 이해하자. 절대적 이론은 아니지만, 보통 유전자 프로모터의 메틸레이션 높으면 해당 유전자의 발현이 떨어진다고 알려져 있다 (Transcription factor가 프로모터에 붙지를 못해..). 따라서, DCM 환자들의 유전자들이 제대로 된 발현을 못하고 있는 상태라 볼 수 있겠다.

 

 

 

마무리하며..

심근증의 원인을 위에 써놓긴 했지만, 사실 원인이 명확하지 않다는게 정설인 듯하다. 특히 국내에서는 심근증 환자 샘플을 얻기가 매우 힘들기 때문에 연구가 어렵다고 한다. 소식통이 맞다면, 질병관리본부에서 연구를 위해 여러 병원에서 모은 심근 세포들을 sequencing한 데이터가 있는 걸로 알고 있다 (아닐수도 있습니다..)

 

 

Cardiomyopathy (심근증, 심장병) End.BioinformaticsAndMe

[Blockchain] 블록체인과 헬스케어 (2) Start.

BioinformaticsAndMe



2. Blockchain과 의료, 헬스케어 데이터

- 유전체 연구의 발전과 정밀 의학의 진보 덕분에, 헬스케어 시장은 질병 예방과 치료에서의 혁신적인 접근에 도달함.

- 그 접근은 개별 환자의 유전적 구성뿐만 아니라, 생활스타일, 환경까지 아우름.

- 이 흐름과 더불어 정보기술의 발달은 방대한 건강 정보 데이터베이스를 낳았고, 그 데이터를 분석하기 위한 툴을 제공함.

- 이렇듯, 헬스케어와 정보기술의 진보된 융합은 IT health 분야의 놀라운 변화를 촉진.

- 블록체인 기술의 발견은 헬스케어 제공자들이 상호운용적으로 안전하게 의료 정보를 공유할 수 있는 장을 만듦.

- 블록체인은 정말 의학 발전과 의료 연구에 지대한 영향을 끼칠 것이며, 환자들로 하여금 그들의 건강의 책임감을 부여.

- 관련 회사 : 네불라 지노믹스



3. 헬스케어와 블록체인 모델

- 헬스케어 데이터가 워낙 역동적이고 방대하기 때문에, 모든 멤버에게 모든 정보를 공유하는 일은 낭비가 될 수 있음.

- 따라서, 헬스케어 데이터의 범위 정도를 구체화하여, 적절한 평가*통제 관리가 이뤄지는 블록 체인을 형성해야함.

- 헬스 블록체인은 질환 데이터뿐만 아니라, 모바일 기기*웨어러블 센서 등에서 모은 모든 메타 데이터를 적절히 인덱싱하는 기술을 가져야함.

- 모든 의료 정보는 'Data Lake'라 불리는 데이터 저장소에 모이게 됨.

- Data Lake는 다양한 분석을 위한 기반으로 사용 가능.


- 헬스 데이터들이 다양한 방법으로 모여지면, 암호화와 디지털화 과정이 필요.

- 헬스 데이터들이 Data Lake에 모여질때마다, 건강 기록의 흔적이 사용자 고유 identifier에 따라 블록체인에 등록됨.



- 개인 의료 정보를 본인에게 안전한 방법으로 귀속시키면서, 원한다면 언제든지 공유하여 코호트 연구와 정밀 의학에 이바지 가능.




마무리하며..

최근, 폭풍적으로 인기를 끈 비트코인으로 인해,  '나카모토 사토시' 와 몇몇 사람들만 알던

'블록체인'이란 단어가 더이상 우리에게 낯설지 않다.

해외에서는 네불라 지노믹스 같은 회사들이 나오고 있지만, 국내는 아직까지 의료 정보와 관련되어 오픈된 블록체인 없는 듯하다.

현재, 블록체인의 데이터 저장, 보안, 암호화의 기술이 어느정도 갖춰져 있기 때문에,

개인 의료 정보와 연동시키는 일은 법의 테두리와 대중의 이해가 허용된다면, 어렵지 않다고 생각한다.

최근 정부에서 발표한 '마이데이터' 사업에서 개인 의료 데이터를 보관하는 방법을 구체적으로 제시하지 않았는데,

블록체인에 기반한 공공 헬스 장부가 유용한 방법 중 하나가 될 듯하다.




[Blockchain] 블록체인과 헬스케어 (2) End.

BioinformaticsAndMe



'Technology' 카테고리의 다른 글

[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11
[Blockchain] 블록체인과 헬스케어 (1)  (1) 2018.07.18
[Diagnosis] Liquid biopsy (액체생검)  (1) 2018.07.15

[Blockchain] 블록체인과 헬스케어 (1) Start.

BioinformaticsAndMe



1. Blockchain (블록체인) 을 정의해보자

-블록체인은 일반적으로 공공 거래 장부라고도 부르며 가상 화폐(비트코인)로 거래할 때 발생할 수 있는 해킹을 막는 기술로 알려짐.

-기존 금융 회사의 경우 중앙 집중형 서버에 거래 기록을 보관하는 반면, 블록체인은 거래에 참여하는 모든 사용자에게 거래 내역을 보내 주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용.   

-블록체인은 분산 네트워크, 공유된 장부, 디지털 거래 총 3가지 주요 특징으로 구성된다.

  • 분산 네트워크

>블록체인은 분산된 네트워크에 참여하는 peer-to-peer (P2P) 구조를 지님.

>각각의 참여자는 동일한 블록체인의 사본을 저장하고, 서로에게 비교하여 유효성을 검증함.



  • 공유된 장부

>분산 네트워크에 속한 참여자들은 공유된 장부에 거래 기록을 남김.

>몇몇 검토 알고리즘 후, 네트워크에 있는 다수의 참여자가 거래가 유효하다고 인정한다면, 새로운 거래 기록이 공유 장부에 완전히 더해짐.

>이 과정은 몇 분 혹은 몇 초 후, 모든 이들의 장부에 기록됨.

>거래 후, 장부는 고쳐질 수 없기에 위조나 변경의 상황이 발생하지 않음.


  • 디지털 거래

>정보는 암호화 되고 신원 확인을 위해 전자 서명을 하게 됨.

>거래가 블록 단위로 구성되며, 각 블록은 체인의 이전 블록에 대한 암호화된 해시를 포함 (꼬리 물기!?).




원래 이번 칼럼으로 내용을 정리하려 했었지만..

블록체인 설명이 길어져, 헬스케어 연관 내용은 다음 칼럼에서 바로 다루겠다..

(작년에 리플 샀어야 했는데.. 블록체인 공부만 하고 정작 ...ㅠ)




[Blockchain] 블록체인과 헬스케어 (1) End.

BioinformaticsAndMe



'Technology' 카테고리의 다른 글

[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11
[Blockchain] 블록체인과 헬스케어 (2)  (0) 2018.07.18
[Diagnosis] Liquid biopsy (액체생검)  (1) 2018.07.15



Tasks and Responsibilities:

  • Coordinate new installations, including facility inspections, and assay validation
  • Provide comprehensive technical training and support
  • Provide ongoing support and troubleshooting for customers issues related to user’s technical skills, biochemistry/assay design, experimental design, software and instruments.
  • Carry out projects that include demonstrations, feasibility studies, and new product evaluation
  • Help to maintain and increase product usage, and supporting sales efforts through technical presentations and demonstrations
  • Provide pre-sales and post-sales technical and scientific presentation
  • Develop and maintain positive relationships with customers
  • Create and maintain support information in the company enterprise database
  • Acting as a key contributor of customer feedback to marketing and product development teams.
  • Build effective relationships with new and existing clients for field application purpose, monitor the customers feedback on product usage and maintenance
  • Develop and improve key company processes that support our mission of building a world-class customer support organization.

All listed tasks and responsibilities are deemed as essential functions to this position; however, business conditions may require reasonable accommodations for additional task and responsibilities. 

Preferred Educational Background:

  • PhD in Science, Genetics, Molecular Biology or Bioinformatics required, OR M.S. plus minimum 2 years of relevant experience

Preferred Experiential Background:

  • At least 2 years of experiences in diagnostics environment
  • Past experience in clinical lab is a plus
  • Prior field experience supporting customers using sequencing or array technologies preferred
  • Demonstrated experience with next generation or high throughput sequencing sample prep technologies and protocols preferred
  • Demonstrated understanding of commonly-used sequencing data analysis software applications preferred
  • Demonstrated bioinformatics expertise and experience with handling and analyzing next generation sequencing or array data is a huge plus
  • Outstanding problem solving and interpersonal skills
  • Demonstrated written and verbal communication and training skills
  • Demonstrated ability to work within a cooperative team environment
  • Strong people skills, cross-organizational teamwork
  • Clear vision of and commitment to providing outstanding customer service
  • Excellent communication skills in Korean and English
  • Must be willing to travel

Illumina believes that everyone has the ability to make an impact, and we are proud to be an equal opportunity employer committed to providing employment opportunity regardless of sex, race, creed, color, gender, religion, marital status, domestic partner status, age, national origin or ancestry, physical or mental disability, medical condition, sexual orientation, pregnancy, military or veteran status, citizenship status, and genetic information.



#일루미나코리아 채용홈페이지

https://illumina.wd1.myworkdayjobs.com/en-US/illumina-careers/job/South-Korea---Remote/Field-Applications-Scientist--Korea_7571BR-1?source=GlassDoor

+ Recent posts