Microsoft (마이크로소프트, 유전자가위) Start.

BioinformaticsAndMe



Microsoft (마이크로소프트)가 공지능에 기반한 유전자가위 효과를 예측하는 'Azimuth' 'Elevation' 를 개발했다.

https://www.microsoft.com/en-us/research/project/crispr/

일단 유전자 가위가 뭔지 살펴보자.


#유전자 가위(Genetic Scissors)가 뭐야?

 -유전자 가위는 동식물 유전자의 특정 DNA부위를 자르는 인공 효소다 (징크핑거 뉴클레이즈, 크리스퍼 등).

 -유전자의 잘못된 부분을 제거해 문제를 해결하는 유전자 편집 (Gene Editing) 기술이다.

 -즉, 손상된 DNA를 잘라내고 정상DNA로 갈아 끼워넣는 기술을 말한다.

 -3세대 유전자 가위인 CRISPR/Cas9 가 개발되어 염기서열의 표적 제거에 이용한다.



#마이크로소프트는 유전자가위의 'On-target and off-target guide prediction’ 의 인공지능 프로젝트를 진행했고,

유전자가위 데이터에 기반한 머신러닝을 통해 DNA 편집함으로써 정확도를 높이고, 부작용을 줄이는 예측모델을 개발한 것이다.

그것이 서두에서 언급한 Azimuth 와 Elevation 이다.

Azimuth: On-target activity prediction (유전자가위가 자르는 부위를 예측)

Elevation: Off-target activity prediction (유전자가위가 자르면 안되는 부위를 예측)

유전자가위를 통해 특정 DNA를 효율적으로 자르기 위해 Azimuth 가 사용되고,

유전자가위를 통해 엉뚱한 DNA를 자르는 부작용을 회피하기 위해 Elevation 이 사용되는 것이다.

아래 논문을 참조한다.

#Azimuth

Doench, John G., et al. "Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9." Nature biotechnology 34.2 (2016): 184.

#Elevation

Listgarten, Jennifer, et al. "Prediction of off-target activities for the end-to-end design of CRISPR guide RNAs." Nature Biomedical Engineering 2.1 (2018): 38.



#쉬어가는 차원에서 마이크로소프트가 제공하는 '머신러닝을 이용한 Gene Editing'  짧은 영상을 보자

1분 7초 에 나오는 영상이 흥미롭다. 앞서 화면에서 약간의 노가다식으로 진행됐던 타겟 Detection 영역이

CRISPR 데이터에 기반한 머신러닝으로 빠르게 수행되는 모습이 인상적이다.

영상 후반부를 보다가 'AZURE' 형님이 나와서 살짝 놀랐다 (형이 거시서 왜..)

하지만, 사실 마이크로소프트가 자사가 가진 최강의 클라우드를 이용해, 분석 효율성을 높이겠다는 말은 당연해 보인다.

또한, 일반 유전자가위 연구자가 고성능의 컴퓨터를 보유할 가능성은 희박하므로,  AZURE Cloud 사용은 유용할 듯하다. 



#마이크로소프트는 자사 웹페이지에서 유전자 혹 시퀀스를 넣으면 Prediction 정보를 볼 수 있다.

https://crispr.ml/

또한, 아래 사이트에선

https://github.com/microsoftResearch//azimuth

연구 개발자를 위해 github 에 python code 를 친히 제공해주고 있다.



마무리하며..

유전자가위. 사실 공중파나 네이버뉴스를 본사람이면 다 들어봤을 단어이다.

그런데, 매스컴에서 만병통치약처럼 설명하던데.. 관련 논문을 딥하게 읽진 않아서 모르겠다.

그래도 현재진행형이자 미래과학을 이끌 기술이란건 확실해보이며,

마이크로소프트가 이를 놓치지 않고, 자사의 머신러닝 기술과 클라우드 애저를 통해,

과학자들의 유전자가위 연구 개발 향상에 기여할 것을 분명해 보인다.




Microsoft (마이크로소프트, 유전자가위) End.

BioinformaticsAndMe

R, Command line interface  Start.

BioinformaticsAndMe



파트 1 에 이어서,

R 의 기본 명령어와 Component 를 다뤄보자.


8. 매트릭스에 row/column 추가하기

#Column 추가하기
> mat = matrix(1:20, ncol=4, nrow=5)
> cbind(mat, c(21:25) )
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    6   11   16   21
[2,]    2    7   12   17   22
[3,]    3    8   13   18   23
[4,]    4    9   14   19   24
[5,]    5   10   15   20   25


#Row 추가하기

> mat = matrix(1:20, ncol=4, nrow=5)

> rbind(mat, c(26:29) )

     [,1] [,2] [,3] [,4]

[1,]    1    6   11   16

[2,]    2    7   12   17

[3,]    3    8   13   18

[4,]    4    9   14   19

[5,]    5   10   15   20

[6,]   26   27   28   29



9. 벡터에 이름 붙이기
> x <- c(1,2,3,4,5)
> names(x)
NULL
> names(x) <- c("A","B","C","D","E")
> x
A B C D E 
1 2 3 4 5 
> x['C']
> names(x)
[1] "A" "B" "C" "D" "E"


10. 매트릭스에 이름 붙이기
> CountTable <- matrix( c(189, 10845, 104, 10933) , nrow=2, byrow=TRUE )
> CountTable
     [,1]  [,2]
[1,]  189 10845
[2,]  104 10933
> rownames(CountTable) <- c("Placebo", "Aspirin")

> colnames(CountTable) <- c("No heart attack", "Heart attack")

> CountTable

        No heart attack Heart attack

Placebo           189        10845

Aspirin             104        10933

> CountTable["Placebo",]

No heart attack    Heart attack 

            189           10845 

> colnames(CountTable)

[1] "No heart attack" "Heart attack"



11. 범주형 변수 (factor)
#factor는 R에서 제공하는 categorical variable(범주형 변수)로, 여러개의 level로 구성된다. 혈액형이라는 범주형 변수가 존재할 때, A,B,AB,O 라는 level을 가지게 된다.
> BloodType <- c("A","B","AB","O","O","A","A","O","B","B")
> summary(BloodType)
   Length     Class      Mode 
       10 character character 
#위에서 정의한 BloodType이라는 vector를 factor로 형 변환.
> BloodType <- c("A","B","AB","O","O","A","A","O","B","B")
> BloodType <- factor(BloodType)
> BloodType
 [1] A  B  AB O  O  A  A  O  B  B 
Levels: A AB B O
#factor() 함수를 사용한 이후, BloodType은 A,AB,B,O라는 4가지 level을 가진 factor형 변수가 되고, 그것은 알파벳 순서로 정렬이 되어 categorical 하게 저장된다.
> summary(BloodType)
 A AB  B  O 
 3  1  3  3 

#성별 예시
> gender <- c(1,1,2,2,1,2,2,2,1,2)
> summary(gender)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0     1.0     2.0     1.6     2.0     2.0 
> gender <- factor(gender)
> gender
 [1] 1 1 2 2 1 2 2 2 1 2
Levels: 1 2
> class(gender)
[1] "factor"
#1과 2의 level을 가지는 factor 형으로 변환된 것을 볼 수 있음. 하지만 1과 2가 무엇을 의미하는지 파악하기 불가능하기 때문에, 이름을 가지는 label을 구성해보자.
> gender <- c(1,1,2,2,1,2,2,2,1,2)
> gender <- factor(gender, levels=c(1,2), labels=c("male","female"))
> gender
 [1] male   male   female female male   female female female male   female
Levels: male female

 
12. 데이터 프레임 (data frame)
#벡터 데이터로 데이터프레임을 만드는 것은 data.frame()함수를 이용한다.
> head <- c("seoul", "tokyo", "paris")
> values <- 1:3
> sample <- data.frame(head, values)
#결과
   head     values
1 seoul             1
2 tokyo             2
3 paris             3 

#데이터프레임에 열 추가하기
> vec <- c(“100”, “80”, “30”) # 새로운 벡터데이터 생성하기
> sample$newcol <- vec #sample 데이터프레임에 벡터데이터(vec)추가

#데이터 열이름 바꾸기
방법1.
>names(sample)
# 결과
[1] "head" "values" 
방법2.
>names(sample)[names(sample) == "city"] <- c("C_NAME")
>names(sample) #열이름 출력
# 결과
[1] "C_NAME" "count" 
방법3.
>names(sample)[2] <- c("C_VLAUE")
>names(sample)#열이름 출력
# 결과
[1] "C_NAME" "C_VALUE"

#데이터 정렬
> data(mtcars)
> head(mtcars,10)
> order(mtcars$mpg)
> mtcars=mtcars[order(mtcars$mpg),]
> head(mtcars)


13. 데이터프레임 예제

#변속기가 자동(am == 0)이고 & 실린더가 4개, 6개 (cyl == c(4, 6)) 인 자동차들의 연비(mpg) 평균(mean())는?

> attach(mtcars)
# 변속기가 자동이고 & 실린더가 4개, 6개인 자동차의 연비, 실린더, 자동/수동 변수 선별
> mtcars_mart_0 <- mtcars[ which( am == 0 & cyl == c(4, 6)), c("mpg", "cyl", "am")]
> mtcars_mart_0
                mpg cyl am
Hornet 4 Drive 21.4   6  0
Valiant        18.1   6  0
Merc 230       22.8   4  0
Merc 280       19.2   6  0
Toyota Corona  21.5   4  0
> mean(mtcars_mart_0$mpg)
[1] 20.6
> detach(mtcars)



R, Command line interface  End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

막대그래프 (Barplot)  (0) 2018.08.06
R, 결측치 처리 (Missing value, NA)  (0) 2018.07.26
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08

Cardiomyopathy (심근증, 심장병) Start.BioinformaticsAndMe

 

 

1. Cardiomyopathy, 심근증 이란?

심근증은 심근에 주된 병변이 보이는 질환의 총칭이다. 심근경색, 협심증, 고혈압 심장 질환이 없이 심장 근육에 이상이 발생하는 여러 질환군을 포함한다.

심근증은 크게 1차성과 2차성 두 가지로 나눌 수 있다.

1차: 주로 심장 근육에 특이적으로 병이 발생. 대부분 원인을 알 수 없음.

2차: 아밀로이드증(amyloidosis, 아밀로이드 단백질이 축적되어 조직 기능을 저하시킴)과 같이 심근 질환 원인의 전신 질환이 뚜렷하게 보임. 

때때로 알코올성 심근증이 전체 질환자의 30%가 넘게 발생하기도 하며, 질환 초기에 금주하게 되면 진행이 중지되거나 좌심실 수축능력이 회복되기도 한다. 그러나 지속적으로 술을 마시면 환자의 40~50%는 3~6년 안에 사망하게 된다.

 

 

2. 심근증의 원인과 증상

심근증의 원인과 증상은 환자가 놓인 환경에 따라 매우 다양하다.

- 원인:

Viral infection(바이러스감염), Autoimmune disease(자가면역질환), Excessive alcohol consumption(음주과다), Exposure to toxic compounds(독성물질노출), Pregnancy(임신), Familial disease(가족력)

- 증상:

Shortness of breath(호흡곤란), Swelling of the ankles(발목부종), Tiredness(피로감), Palpitations and Syncope(심장부위에 비정상적 심장박동을 느낌), Chest pain(흉통), Syncope(실신)
20∼40대에 증상이 나타나고, 급사의 원인이 됨.

 

 

3. 심근증의 종류

- 확장성 심근증 (DCM, dilated cardiomyopathy)

>수축장애, 심실내강이 커지고, 심근이 얇아짐. 따라서 심장이 비대해지고 고유의 능력을 상실함. 중년에 많고 남성에게 더 많다. 

- 비후성 심근증 (HCM, hypertrophic cardiomyopathy)

>심근이커짐. 가족력 의심. 별다른 증상이 없으며 젊은 연령층이 갑자기 사망하는 원인이 되기도 한다.

- 우심실 형성이상 심근증 (ACM, arrhythmogenic cardiomyopathy)

>우심실의 기능 및 구조 이상. 남성에서 여성에 비해 2~3배 더 많이 발생한다.

- 제한성 심근증 (RCM, restrictive cardiomyopathy)

>심근이 딱딱해짐. 서망률이 높다.

 

 

4. NYHA 에 의한 심장기능 중증도 판단

뉴욕심장학회 기준에 의해 심장기능상실의 중증도를 4개의 NYHA(New York Heart Association) 클래스로 나눈다.

- NYHA class 1: 심장질환이 있으나 증상이 없음, 걷거나 계단을 오를때 숨이 좀 차오르나 일상 활동에 문제 없는 정도.

- NYHA class 2: 숨이 차거나 협심증 같은 증상이 다소 보임. 일상 활동에 약간의 제한.

- NYHA class 3: 증상으로 인한 활동 제한 발생함. 20~100m 를 걸을 때에도 증상이 보이며 쉴때만 편안.

- NYHA class 4: 쉬는 동안에도 증상이 심함. 침대에서 벗어날 수 없을 정도. 

 

 

5. 관련 논문

심근증에 직접적인 원인을 찾기 위해 여러 연구들이 진행되었다. 주로 Gene expression 이나 DNA methylation 분야에 연구가 활발해 보이므로 아래 두 논문을 살펴보길 바란다.

 

A) Grzeskowiak, Rafal, et al. "Expression profiling of human idiopathic dilated cardiomyopathy." Cardiovascular research 59.2 (2003): 400-411.

위 그림은 200여개 정도의 DEG이 Gene ontology (Biological process)를 살펴보았다. Apoptosis의 Up expression이 보이고, Cell cycle 관련 ontology의 Down expression이 보인다. apoptosis와 cell cycle 의 관련성을 고려해보면 재밌다. 쉽게 설명하면, 심근증에 걸렸을 때 심근세포들이 자살하려는 발현이 증강하고, 심근세포를 만드는 발현은 떨어진다. 세포가 죽으면 다시 만들어야 하는데, 그러지 못하니 정상적인 심장기능을 해낼 심근세포들이 부족하다? 정도로 해석할 수 있겠다.

 

 

B) Koczor, Christopher A., et al. "Detection of differentially methylated gene promoters in failing and nonfailing human left ventricle myocardium using computation analysis." Physiological genomics 45.14 (2013): 597-605.

위 그림은 DCM (확장성 심근증) 환자들이 정상에 비해 유전자의 Promoter 지역에 DNA methylation이 높았다 란 결과를 보여줬다. 음.. DNA methylation 개념은 다음 칼럼에 다시 다루기로 하며, 간단하게 이해하자. 절대적 이론은 아니지만, 보통 유전자 프로모터의 메틸레이션 높으면 해당 유전자의 발현이 떨어진다고 알려져 있다 (Transcription factor가 프로모터에 붙지를 못해..). 따라서, DCM 환자들의 유전자들이 제대로 된 발현을 못하고 있는 상태라 볼 수 있겠다.

 

 

 

마무리하며..

심근증의 원인을 위에 써놓긴 했지만, 사실 원인이 명확하지 않다는게 정설인 듯하다. 특히 국내에서는 심근증 환자 샘플을 얻기가 매우 힘들기 때문에 연구가 어렵다고 한다. 소식통이 맞다면, 질병관리본부에서 연구를 위해 여러 병원에서 모은 심근 세포들을 sequencing한 데이터가 있는 걸로 알고 있다 (아닐수도 있습니다..)

 

 

Cardiomyopathy (심근증, 심장병) End.BioinformaticsAndMe

[Blockchain] 블록체인과 헬스케어 (2) Start.

BioinformaticsAndMe



2. Blockchain과 의료, 헬스케어 데이터

- 유전체 연구의 발전과 정밀 의학의 진보 덕분에, 헬스케어 시장은 질병 예방과 치료에서의 혁신적인 접근에 도달함.

- 그 접근은 개별 환자의 유전적 구성뿐만 아니라, 생활스타일, 환경까지 아우름.

- 이 흐름과 더불어 정보기술의 발달은 방대한 건강 정보 데이터베이스를 낳았고, 그 데이터를 분석하기 위한 툴을 제공함.

- 이렇듯, 헬스케어와 정보기술의 진보된 융합은 IT health 분야의 놀라운 변화를 촉진.

- 블록체인 기술의 발견은 헬스케어 제공자들이 상호운용적으로 안전하게 의료 정보를 공유할 수 있는 장을 만듦.

- 블록체인은 정말 의학 발전과 의료 연구에 지대한 영향을 끼칠 것이며, 환자들로 하여금 그들의 건강의 책임감을 부여.

- 관련 회사 : 네불라 지노믹스



3. 헬스케어와 블록체인 모델

- 헬스케어 데이터가 워낙 역동적이고 방대하기 때문에, 모든 멤버에게 모든 정보를 공유하는 일은 낭비가 될 수 있음.

- 따라서, 헬스케어 데이터의 범위 정도를 구체화하여, 적절한 평가*통제 관리가 이뤄지는 블록 체인을 형성해야함.

- 헬스 블록체인은 질환 데이터뿐만 아니라, 모바일 기기*웨어러블 센서 등에서 모은 모든 메타 데이터를 적절히 인덱싱하는 기술을 가져야함.

- 모든 의료 정보는 'Data Lake'라 불리는 데이터 저장소에 모이게 됨.

- Data Lake는 다양한 분석을 위한 기반으로 사용 가능.


- 헬스 데이터들이 다양한 방법으로 모여지면, 암호화와 디지털화 과정이 필요.

- 헬스 데이터들이 Data Lake에 모여질때마다, 건강 기록의 흔적이 사용자 고유 identifier에 따라 블록체인에 등록됨.



- 개인 의료 정보를 본인에게 안전한 방법으로 귀속시키면서, 원한다면 언제든지 공유하여 코호트 연구와 정밀 의학에 이바지 가능.




마무리하며..

최근, 폭풍적으로 인기를 끈 비트코인으로 인해,  '나카모토 사토시' 와 몇몇 사람들만 알던

'블록체인'이란 단어가 더이상 우리에게 낯설지 않다.

해외에서는 네불라 지노믹스 같은 회사들이 나오고 있지만, 국내는 아직까지 의료 정보와 관련되어 오픈된 블록체인 없는 듯하다.

현재, 블록체인의 데이터 저장, 보안, 암호화의 기술이 어느정도 갖춰져 있기 때문에,

개인 의료 정보와 연동시키는 일은 법의 테두리와 대중의 이해가 허용된다면, 어렵지 않다고 생각한다.

최근 정부에서 발표한 '마이데이터' 사업에서 개인 의료 데이터를 보관하는 방법을 구체적으로 제시하지 않았는데,

블록체인에 기반한 공공 헬스 장부가 유용한 방법 중 하나가 될 듯하다.




[Blockchain] 블록체인과 헬스케어 (2) End.

BioinformaticsAndMe



'Technology' 카테고리의 다른 글

[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11
[Blockchain] 블록체인과 헬스케어 (1)  (1) 2018.07.18
[Diagnosis] Liquid biopsy (액체생검)  (1) 2018.07.15

[Blockchain] 블록체인과 헬스케어 (1) Start.

BioinformaticsAndMe



1. Blockchain (블록체인) 을 정의해보자

-블록체인은 일반적으로 공공 거래 장부라고도 부르며 가상 화폐(비트코인)로 거래할 때 발생할 수 있는 해킹을 막는 기술로 알려짐.

-기존 금융 회사의 경우 중앙 집중형 서버에 거래 기록을 보관하는 반면, 블록체인은 거래에 참여하는 모든 사용자에게 거래 내역을 보내 주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용.   

-블록체인은 분산 네트워크, 공유된 장부, 디지털 거래 총 3가지 주요 특징으로 구성된다.

  • 분산 네트워크

>블록체인은 분산된 네트워크에 참여하는 peer-to-peer (P2P) 구조를 지님.

>각각의 참여자는 동일한 블록체인의 사본을 저장하고, 서로에게 비교하여 유효성을 검증함.



  • 공유된 장부

>분산 네트워크에 속한 참여자들은 공유된 장부에 거래 기록을 남김.

>몇몇 검토 알고리즘 후, 네트워크에 있는 다수의 참여자가 거래가 유효하다고 인정한다면, 새로운 거래 기록이 공유 장부에 완전히 더해짐.

>이 과정은 몇 분 혹은 몇 초 후, 모든 이들의 장부에 기록됨.

>거래 후, 장부는 고쳐질 수 없기에 위조나 변경의 상황이 발생하지 않음.


  • 디지털 거래

>정보는 암호화 되고 신원 확인을 위해 전자 서명을 하게 됨.

>거래가 블록 단위로 구성되며, 각 블록은 체인의 이전 블록에 대한 암호화된 해시를 포함 (꼬리 물기!?).




원래 이번 칼럼으로 내용을 정리하려 했었지만..

블록체인 설명이 길어져, 헬스케어 연관 내용은 다음 칼럼에서 바로 다루겠다..

(작년에 리플 샀어야 했는데.. 블록체인 공부만 하고 정작 ...ㅠ)




[Blockchain] 블록체인과 헬스케어 (1) End.

BioinformaticsAndMe



'Technology' 카테고리의 다른 글

[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11
[Blockchain] 블록체인과 헬스케어 (2)  (0) 2018.07.18
[Diagnosis] Liquid biopsy (액체생검)  (1) 2018.07.15



Tasks and Responsibilities:

  • Coordinate new installations, including facility inspections, and assay validation
  • Provide comprehensive technical training and support
  • Provide ongoing support and troubleshooting for customers issues related to user’s technical skills, biochemistry/assay design, experimental design, software and instruments.
  • Carry out projects that include demonstrations, feasibility studies, and new product evaluation
  • Help to maintain and increase product usage, and supporting sales efforts through technical presentations and demonstrations
  • Provide pre-sales and post-sales technical and scientific presentation
  • Develop and maintain positive relationships with customers
  • Create and maintain support information in the company enterprise database
  • Acting as a key contributor of customer feedback to marketing and product development teams.
  • Build effective relationships with new and existing clients for field application purpose, monitor the customers feedback on product usage and maintenance
  • Develop and improve key company processes that support our mission of building a world-class customer support organization.

All listed tasks and responsibilities are deemed as essential functions to this position; however, business conditions may require reasonable accommodations for additional task and responsibilities. 

Preferred Educational Background:

  • PhD in Science, Genetics, Molecular Biology or Bioinformatics required, OR M.S. plus minimum 2 years of relevant experience

Preferred Experiential Background:

  • At least 2 years of experiences in diagnostics environment
  • Past experience in clinical lab is a plus
  • Prior field experience supporting customers using sequencing or array technologies preferred
  • Demonstrated experience with next generation or high throughput sequencing sample prep technologies and protocols preferred
  • Demonstrated understanding of commonly-used sequencing data analysis software applications preferred
  • Demonstrated bioinformatics expertise and experience with handling and analyzing next generation sequencing or array data is a huge plus
  • Outstanding problem solving and interpersonal skills
  • Demonstrated written and verbal communication and training skills
  • Demonstrated ability to work within a cooperative team environment
  • Strong people skills, cross-organizational teamwork
  • Clear vision of and commitment to providing outstanding customer service
  • Excellent communication skills in Korean and English
  • Must be willing to travel

Illumina believes that everyone has the ability to make an impact, and we are proud to be an equal opportunity employer committed to providing employment opportunity regardless of sex, race, creed, color, gender, religion, marital status, domestic partner status, age, national origin or ancestry, physical or mental disability, medical condition, sexual orientation, pregnancy, military or veteran status, citizenship status, and genetic information.



#일루미나코리아 채용홈페이지

https://illumina.wd1.myworkdayjobs.com/en-US/illumina-careers/job/South-Korea---Remote/Field-Applications-Scientist--Korea_7571BR-1?source=GlassDoor

+ Recent posts