Nebula Genomics (네불라 지노믹스) Start.

BioinformaticsAndMe




Sell Your DNA for Coins with Nebula Genomics

너의 DNA를 팔아라!

오늘 이야기할 회사는 최근 핫한 블록체인 기술로 사람 유전 정보의 가치를 창출(산출?)하려는

'Nebula Genomics (네불라 지노믹스)' 다.



소개에 앞서,

아래는 기존의 DTC (Direct-to-consumer) 회사(가운데)들이 개개인들의 유전 정보를 수집하여 수익을 냈던 사업 모델이다.

예를 들어,

개인이 '23andMe' 회사에 유전자검사를 의뢰하고 돈을 내고,

제약회사가 '23andMe' 가 모은 데이터베이스에 접근하여 돈을 내는 시스템인거다

(화이자, 제넨탁과 같은 대형 파마들이 23andMe의 데이터를 비싸게 주고 샀다고 한다. 얼마징..)

(참고로, 구글이 23andMe에 공격적인(적극적인) 투자를 진행하여 인수했다.. 역시 갓글..)


위에 사업모델을 보고 Nebula Genomics 는 생각했다.

저기 중간에 있는 Personal genomics company 필요없어 보이는데?..! (도매상을 건너뛰자)

이 생각을 현실화 하려면 개인 유전정보 관리 문제가 이제까지의 관건이었지만,

블록체인 기술로 개인 유전체 정보를 Nubula Token화 하여 개인-업체 간 유전 정보를

가능케 하는게 아래 네불라 지노믹스의 사업모델이다.


#Nebula Genomics 의 특징을 정리해보자.

- 개인의 유전체 데이터를 필요로 하는 구매자가 그 대가를 개인에게 지급하고 개인은 암호화된 유전체 데이터를 안전하게 제공하는 서비스 플랫폼 구축.

- 개인은 유전체 데이터 제공의 대가로 네불라가 발행한 디지털 토큰을 받고, 원한다면 현금화 할 수 있는 방식.

- 이 토큰은 비트코인처럼 거래되지는 않지만 시퀀싱 비용이 낮아짐에 따라 (해가 지날수록 기술이 좋아지므로 시퀀신 비용은 떨어진다) 토큰의 가치도 떨어지거나, 유전체 데이터 구매자가 많이 늘어난다면 토큰가치도 크게 올라갈 것이라 예상.



#네불라 코인 구입 과정을 살펴보자.
1) 개인들은 처음에 Nebula Genomics로부터 토큰을 구입해 유전체를 해독하고 확보.
2) 익명으로 Nebula 네트워크를 통해 본인의 유전체 데이터를 공유하고 회사가 요청하는 설문조사를 마치면, 회사는 개인에게 데이터 가치에 맞는 토큰을 지불하며, 개인은 이 토큰을 현금화할 수 있음.
3) 구매자는 유전체 데이터 가치에 따라 토큰을 차등 지불할 수 있으며, 설문 참여자가 구매자가 간절히 원하는 데이터를 제공한다면 높은 토큰 보상이 지급되며, 그렇지 않다면 낮은 가치의 토큰 보상.


위에 표는 Nebula genomics가 제공하는 타 DTC 회사 비교 표이다.

오. 네불라지노믹스.. 다 이겼어.. (왠지 조만간 다른 회사도 나타나서, 저 표 그리고 다 이긴다고 만들듯..ㅋ)

지금 생각난 것인데, 네불라 지노믹스에는 그 유명한 유전학의 대가 '조지 처치'가 있다. (사실 이 사실만으로도 여럿 떄려 눕히는듯..)



마무리..

Nebula Genomics 의 사업모델은 사실 과정자체는 심플해보인다.

블록체인이라는 우수한 공공장부 기술을 통해 사업을 확장해 나갈수 있어 보인다.

하지만, 걱정인 것이 국내에서 '코인'이라는 개념에 대한 불신이 팽배하기 때문에,

위와 같은 사업모델을 국내에서 실행할 수 있을지는 아직까지 미지수다.

지난 달 말에 'MyData' 사업 계획을 정부에서 발표했는데, 본인의 의료데이터를 해당 기관에서 다운받을 수 있다고한다.

저 사업이 활성화되면서 개인유전데이터 거래가 어떤식으로(네불라코인처럼?) 진행될지 궁금해진다.


네불라 지노믹스 홈페이지

https://www.nebulagenomics.io/




Nebula Genomics (네불라 지노믹스) End.

BioinformaticsAndMe


공통자격

○ 박사학위 취득 후 5년이 경과되지 아니한 자 또는 3개월 내 박사학위 취득 예정자

○ 국가공무원법 제33조(결격사유)에 해당되지 않는 자 및 연구소 규정에 의한 임용결격 사유가 없는 자

○ 남자의 경우 병역의무를 필하였거나 면제된 자

○ 연령․성별 제한없음

○ 취업보호대상자·장애인은 증빙서류 제출 시 관계 법령에 의거 우대

○ 경력단절여성, 여성과학기술인 우대


접수기간 및 문의 

○ 접수기간 : 2018. 7. 5(목) ~ 2018. 7. 20(금) 18:00까지 

○ 신청방법 : 연구소 채용사이트(https://recruit.kitox.re.kr)

○ 전형 및 채용 일정

- (채용공고) 2018. 7. 5.(목) ~ 2018. 7. 20.(금)

- (서류심사) 2018. 7. 31.(화)까지

- (세미나발표 및 면접심사) 2018. 8. 10.(금)까지

- (임용) 2018. 8월 중 

정부 '마이데이터(MyData)' 시범 사업 추진 Start.

BioinformaticsAndMe


대통령직속 4차산업혁명위원회에서 18년 6월 26일, 데이터 산업 활성화 전략 등을 심의․의결하였다.


그중에서 흥미로워 보이는 건

'마이데이터(MyData)' 사업이다.


마이데이터사업이란?

개인정보 관련 법개정 없이도 바로 시행 가능한 데이터 활용체계를 기관 중심에서 정보주체 중심으로 전환해 나간다는 사업


헬스케어산업에서 본다면,

사실 마이데이터 사업이 제대로 되기만 한다면, 의료기관이 주체였던 의료정보를

기업 - 개인 간의 의료정보 교환이 가능해지기 때문에,

국내 헬스케어 시장이 기하급수적으로 성장할 수 있다는 것은 사실이다.

아래 그림을 보면 마이데이터(MyData) 사업을 단번에 이해할 수 있다.



MyData 사업이 시행된 미래... 가 온다면? (상황극)

1. 나는 치질 환자다. 진단부터 치료, 관리까지 3개월 동안 병원을 다녔다.


2. 소중한 치료의 기억을 간직하고 싶었던 나는 병원에 요청하여 그동안의 기록을 내 스마트폰에 저장해두었다.


3. 주말 스마트폰을 보면서 뒹굴고 있는데, 유투브 광고에서 유명 제약사가 치질약을 광고한다.


4. 광고 끝자락에 해당 제약사는 치질치료기록을 (치질환자가 아닌!) 모은다고 한다.


5. 나는 제약사에 전화를 걸었다. 그랬더니 내 치질 치료기록을 남들보다 비싼값에 산다고 한다.


6, 이유를 물어보니 나는 한국인 특이적인 치질이기 때문에 연구가치가 높을 것 같다고 한다.


7. 나는 Call 했다. 나는 받은 돈으로 갖고 싶었던 치질 의자를 샀다. (WIN)


8. 치질치료기록을 모은 제약사는 몇개월동안 충분한 데이터가 쌓였고, 10년이 넘게 걸리던 해당 신약개발을 2년으로 줄일 수 있었다. (WIN)


결과 : WIN - WIN 이다!


위 상황극..ㅠ은 그냥 사업이 시행되면 있을법한 가능성을 예를 든 저의 생각이므로 그냥 웃고 넘어가셔도 된다.



MyData 사업뿐만 아니라, '데이터안심존' 사업도 추진할 예정이란다.

기관 데이터를 비식별화해서 클라우드 기반으로 데이터를 모아두고 각종 기업들이 접근해서 의미있는 결과(산업가치창출..)를

내는 사업으로 보인다. 참고로, 비식별화된 데이터라도 기업들이 가져갈순 없다. (근데, 나는 의문인게 저 비식별화조치라는게 참 애매한 말이다.. 가이드라인이 있긴 있는데,  그 가이드라인을 개인정보보호법이나 생명윤리법 갖다대면 바로 꼬리내리는 것 같다. 사업이 시작되면서 어떤식으로 바뀌게 될지 궁금하다)


다시 처음으로 돌아가서 사실 MyData 사업은 애플, 구글과 같은 미국 슈퍼파워 기업들이 지금 밀고 있는 트렌드다.

또한, 최근 설립한 '네불라 지노믹스'라는 미국 기업은 개인 유전체를 토큰화하여... 음 그냥 더 쉽게 말하면

자기 유전정보를 비트코인 사고 팔듯이 할 수 있는 플랫폼을 구축하려는 것 같다.

놀라운건 조지 처치 (유전 분야에서 엄청 유명하심)가 같이 한다는게 놀랍다.

http://decenter.sedaily.com/NewsView/1RVOC35G08


네불라지노믹스는 다음 칼럼에 다시 소개하겠다.


뭔가 마이데이터 사업 얘기하다가 다른 길로 샌 것 같다.. 아무튼, 취지 자체는 좋은 사업이다. 그러나,, 역시

시민단체에서 폭발적인 반응을 보여주셨다. 규제 개선이 쉽지는 않아 보이는 현 상황이다.

http://www.ingopress.com/news/articleView.html?idxno=21450

사실 우리나라는 의료기록체계가 상당히 잘 잡혀있어서, 기관들이 빅데이터라 불릴만한 거대한 데이터를 보유하고 있다.

연구자의 입장에서 한번쯤은 그런 데이터를 사용해서 훌륭한 결과를 내고 지구 평화에 기여해보고 싶다.

(마무리를 지구 평화로 하다니... 새벽이라 죄송합니다)




정부 '마이데이터(MyData)' 시범 사업 추진 End.

BioinformaticsAndMe



CJ제일제당 채용 홈페이지

http://recruit.cj.net/recruit/ko/recruit/recruit/detail.fo?zz_jo_num=4854

모집기간
 
2018.06.28 01:00 ~ 2018.07.15 23:00
모집분야
조직모집분야상세 내용전공근무지인원
중앙연구소R&D■ 모집분야 
- 방열 소재 및 방열 시스템 관련 연구 
◇ 필수사항 
- 석사/박사 학위 소지 

■ 모집분야 
- 빅데이터 아키텍처 설계 및 구축 
- 빅데이터 분석 인프라 환경구축 
◇ 필수사항 
- 개발 경력 3년이상 
- Java, SQL, Shell 언어 가능 
◇ 우대사항 
- 생물학 분야 시스템 개발 경험 
- NoSQL 기반 설계 및 시스템 적용 
- AWS기반 인프라 구축 경험 
- Hadoop/Spark ecosystem 설계 및 구축 경험 

■ 모집분야 
- 빅데이터 기반 실험실 정보 관리 시스템(LIMS) 개발 
◇ 필수사항 
- 개발 경력 3년이상 
- Java, Javascript, SQL 언어 가능 
◇ 우대사항 
- 생물학 분야 시스템 개발 경험 
- 개발 리더 역할 수행 경험 

■ 모집분야 
- 빅데이터 기반 기계학습 알고리즘 개발 
◇ 필수사항 
- 박사 학위 소지 
◇ 우대사항 
- 생물학 데이터 예측 모델 개발 경험 

■ 모집분야 
- 빅데이터 분석 실험설계 및 통계처리 업무 
◇ 필수사항 
- 석사, 박사 학위 소지 
- SAS, R 능숙 
◇ 우대사항 
- 통계학적 바이오 실험 설계 경력 및 실험 분석 경험 
- 실험 설계와 통계 처리의 조언을 주도적으로 할 수 있음 

■ 모집분야 
- 콩, 옥수수, 형질전환 및 조직배양 
◇ 필수사항 
- 석사, 박사 학위 소지 
◇ 우대사항 
- 콩, 옥수수 형질전환 가능자, 조직배양 능숙 

■ 모집분야 
- 작물보호제 신물질 합성 
- 작물보호제 약효 평가 
- 초충균을 이용한 활성 평가 (온실/포장시험)
기계공학, 재료공학, 컴퓨터공학, Bioinfomatics, 수학, 통계학, 임상통계학, 생물통계학, 정보학, 실험통계학, 유전통계학, 생물학, 식물학, 분자생물학, 식물분자생물학, 화학, 농화학, 식물병리학, 곤충학, 농생물학 및 기타 관련 전공서울특별시 강서구0명
R&D■ 모집분야 
- 세라믹 성형/소결 
◇ 필수사항 
- 석사, 박사 학위 소지 
- 세라믹 프로세싱, 소결체 제작 경험 보유 
◇ 우대사항 
- 경력 3년 이상 

■ 모집분야 
- 광학 측정 장비 개발 
- Hardware Interfacing 
- User Interface 개발 
◇ 필수사항 
- 석사, 박사 학위 소지 
◇ 우대사항 
- 경력 5년 이상 

■ 모집분야 
- 유기합성 및 스케일업 공정 개발 
◇ 필수사항 
- 석사, 박사 학위 소지 
- 의약화학 합성, 작물 보호제 합성, 유기 전자재료 합성, 스케일업 공정 개발 경험 
◇ 우대사항 
- 경력 3년 이상
재료공학, 세라믹공학, 화학, 유기합성, 컴퓨터공학, 물리학 및 기타 관련 전공대전광역시0명
지원 자격 및 절차
지원자격

1) 지원서 작성 시점 기준 관련 경력 
- 학사 : 만 36개월 이상 
- 석사 : 만 12개월 이상 
- 박사 : 경력기간 제한 없음. (단, 졸업 예정자는 지원불가) 
(※ 학위기간(재학) 중의 경력은 기간에 산입하지 않음) 
2) 해외여행에 결격사유가 없는 자, 남성의 경우 군필 혹은 면제자 
3) 보훈대상자는 관련 법규에 의거 우대함.

전형절차
  1. 서류전형
  2.  
  3. 1차면접
  4.  
  5. 2차면접
  6.  
  7. 인적성검사
  8.  
  9. 건강검진
제출방법

1) 본 사이트를 통한 접수만 가능합니다. (우편접수, E-mail 접수 및 방문접수는 받지 않습니다.) 
2) 각 전형결과 및 통보는 E-mail을 통해 진행되오니, E-mail 주소를 정확하게 기재하여 주시기 바랍니다. 
3) 기타 문의사항 발생 시 
- 채용관련문의 : LG화학 대전 인사지원팀 서동준 선임 (dongjunseo@lgchem.com) 
※ 1:1 문의하기는 확인이 늦을 수 있으니 이메일로 문의주시기 바랍니다. 
※ E-mail 및 비밀번호 분실 시 “로그인”에서 이메일주소 및 비밀번호 찾기를 통해 확인 
※ 공고마감일은 지원관련 문의가 많아, 이에 대한 답변 및 대응이 늦어질 수 있습니다. 
등록마감 이후, 추가등록 및 수정이 불가하므로 반드시 등록관련 문의는 마감 3일 전까지 요청완료하여 주시기 바랍니다.

기타사항

1) 허위기재 사실이 발견될 시에는 즉시 불합격 혹은 입사 취소합니다. 
2) 당사의 사업들은 독자적인 기술로 이루어지고 있으며, 채용자들은 입사 후, 당사의 기술과 
업무 매뉴얼을 바탕으로 업무를 하게 되므로 당사는 타 회사의 영업비밀을 필요로 하지 않으며, 
필요한 경우 합법적인 방법과 절차를 통해 취득하여 사용합니다. 
경력 지원자께서는 전 직장의 영업비밀을 침해하는 일이 없도록 각별히 유의하시기 바라며, 
침해 시 본인의 책임임을 주지하여 주시기 바랍니다. 
※ Nate 메일 계정은 간혹 수신이 되지 않는 경우가 있으니 가급적 타 계정으로 ID를 사용 부탁드립니다. 
※ 전형일정(예정) 
- 1차면접 : '18년 8월 초~중순 
- 2차면접 : '18년 8월 중순~말

 


LG화학 채용 홈페이지

http://apply.lg.com/app/job/RetrieveJobNoticesDetail.rpi

Cogena-2 (CoExpression 분석) Start.

BioinformaticsAndMe


Cogena-1 (CoExpression 분석) 에 이어지는 내용이다.


8. Drug enrichment analysis

Cogena 에서는 expression에 따른 클러스터에 관련된 Drug을 매칭해주는 작업을 말한다

# Drug data set

cmapDn100_cogena_result <- clEnrich_one(genecl_result, "pam", "10",

sampleLabel=sampleLabel, annofile=system.file("extdata", "CmapDn100.gmt.xz", package="cogena") )

summary(cmapDn100_cogena_result)


CmapDn100.gmt 을 보면 아래와 같은 테이블 형태이다


9. Drug repositioning

Drug repositioning : 임상에서 실패한 약물 or 시판되는 의약품을 재평가하여 새로운 약효를 찾는 방법

(Drug repositioning 은 깊게 들어가면 끝도 없으므로, 나중에 새로운 칼럼으로 다루겠다..)

heatmapPEI(cmapDn100_cogena_result, "pam", "10",  maintitle="Drug repositioning for Psoriasis")
# cluster 7 기준
heatmapCmap(cmapDn100_cogena_result, "pam", "10",  orderMethod = "7", maintitle="Drug repositioning for Psoriasis")

up expression 되어 있는 Cluster#7을 기준으로 'etoposide' 가 가장 Enrichment한 것이 보인다.

(에토포사이드 항암제로 쓰이는거 맞나?)


10. 클러스터 유전자 뽑기
# 4번 cluster 유전자
# Always make the number as character, please! (숫자에 quote 혹 double quote 해주란 얘기)
geneC <- geneInCluster(clen_res, "pam", "10", "4")
head(geneC)

11. 클러스터 expression matrix 뽑기
# Gene expression profiling with cluster information
# Always make the number as character, please!
gec <- geneExpInCluster(clen_res, "pam", "10")
gec$clusterGeneExp[1:3, 1:4]
gec$label[1:4]

12. Gene correlation 확인
# The gene correlation in a cluster
# Always make the number as character, please!
corInCluster(clen_res, "pam", "10", "10")

음 위에 그림은.. 파란색이 짙고 and 클수록 연결된 유전자 사이의 positive한 상관관계가 높다는 것을 의미한다.

반대로, 지금은 없지만, 빨간색이 짙고 and 클수록 해당 유전자 사이의 negative한 상관관계가 높다.

Correlation analysis에서 항상 명심해야하는 것은 상관관계가 높다고 절대 원인, 결과에 있는게 아니다..

예를 들어, FADS2 유전자 발현이 높은 것이 KRT79의 높은 발현의 원인이라 말할 수없다.

y=ax+b의 형태인 원인, 결과를 하고 싶다면, 회귀분석을 하자!



호호.. 끝났다. 사실 Cogena 툴은 상당히 돌리기 쉬운 축에 속하는 R package이다.
WGCNA 이란 비슷한 패키지도 있다는 것을 알아두자.
마지막으로, 발현 유전자 (DEG)를 분석하는 다양한 방법이 있다. 전체를 다 떄려 넣던지, Up|Down 따로 보던지, Cluster로 보던지...
정답은 없어 보인다. 생물학 연구에서 유전자 발현이란게 조직마다, 연구환경마다 너무나 다르기 때문에
여러 분석을 진행해보면서, 자신의 가설에 가장 적합한 방향으로 스터디를 진행하는 것이 좋을 듯 하다.



Cogena-2 (CoExpression 분석) End.

BioinformaticsAndMe



'R' 카테고리의 다른 글

R, Command line interface Ⅱ  (0) 2018.07.20
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08
Cogena-1 (CoExpression 분석)  (0) 2018.07.05

Expression Atlas (유전자 발현 database) Start.

BioinformaticsAndMe


유전자 발현 데이터베이스는 상당히 많다.

종마다, 조직마다, 실험마다 다양하서 뭘봐야할지 모르겠다 (Human tissue는 GTEx가 잘 정리된편인듯).

자유자재로 GEO와 ArrayExpress 다루는 선생님들은 뭐 걱정이 없으시겠지만,

나같은 초보에게도 쉽게 종마다의 발현 정보를 볼 수 있는 사이트가 있었다.

Expression Atlas

https://www.ebi.ac.uk/gxa/home


와.. single cell expression도 있다.


EMBL-EBI 에서 제공하는 오픈 리소스로 Gene Expression Curation부터 Visualization까지 잘 갖춰져있다.
3000개가 넘는 실험 정보(array, seq)와 40개의 species를 기반으로 하고 있다.
GTEx나 FANTOM5 등의 여러 DB를 통합하면서, 또 친절하게 생물학박사님들이 메뉴얼로 curation 했다고 한다.




#유명한 TP53 와 Lung cancer 발현 정보를 검색해보자.

가운데 Organism은 선택해도 되고, 나는 모든종을 의미하는 'any'로 검색해보겠다.

검색방식은 TP53 and Allspecies and Lung cancer의 교집합 과정이다.


38개의 Expression experiment가 검색되었고 어떤 cell에 발현이 높은지를 색의 농도로 나타내었다.

(사실 Baseline expression은 나는 잘안본다;; 보기 불편해서..)



아래 Deferentially expression 결과를 보자.

처음에 결과를 보고 좀 놀랐던게.. 나는

suppressor인 TP53는 암군인 case가 control에 비해 발현이 떨어져야 한다고 생각했다.

맨위에만 내가 예상한 발현 결과였다.

나니?..


그런데 comparison에 마우스를 대보면 실험에 대한 상세한 내용이 있어서,
구체적인 실험조건을 알고 싶으면 직접 찾아들어가서 보는게 낫겠다.
(예상은 Passage 차이가 있는 걸로 봐서 배양횟수에 따른 비교실험인것 같고,
passage가 높을수록 TP53 발현이 높게 되는 것 같다. 아니면 댓글부탁드려요..)




요즘은 대부분이 RNA-seq을 한다지만, 아직도 array를 통해 expression을 보는 선생님들도 많은 것 같다.
국내사에 분석의뢰를 하면, 그냥 정해진 파이프라인대로만 결과를 줘서 연구자가 downstream 분석하기가 여려운게 사실이다.
분석의뢰한 결과 중에 관심있는 유전자의 발현이
Expression Atlas에서도 유사하게 나온다면

어느정도 믿음을 깔고 더 깊은 분석으로 들어갈 수 있지 않을까?​



Expression Atlas (유전자 발현 database) End.

BioinformaticsAndMe



BWT 알고리즘 Start.

BioinformaticsAndMe


Alignment라는 과정은 Human 분석에서 특히 빡세다..

시퀀싱을 통해서 얻은 길지 않은 리드로 30억 염기서열과 매칭하는 일은 쉽지 않아보인다.

(음. Pacbio나, 요즘핫해보이는? Nanopore는 리드 길이가 길다)


NGS sequence를 alignment하는 tool로  bowtie 와 BWA 가 널리 알려져 있다. 이 tool들이 주력으로 사용하는 알고리즘은 Burrows-Wheeler Transform이다. 30억 염기서열 중에 ACGTACGTACGT를 align하기 위해서 모든 sequence를 처음부터 검색하면 시간이 매우 오래 걸린다. 이를 해결하기 위해서 사용한 알고리즘이 BWT이다.


BWT(Burrows-Wheeler Transform)

마이클 버로우즈와 데이비드 휠러가 1994년에 발표한 블록 정렬 알고리즘으로 변환 결과에 Index 정보가 포함되어 있어, 다른 정보가 없더라도 변환된 문자열의 경우 유사한 문자열들끼리 뭉쳐진 형태로 나타나는 경우가 많아 압축을 위한 전처리 알고리즘으로 사용된다.


#BWT 과정을 이해해보자.

1. 변환하고자 하는 문자열 ( BANANA )의 맨 마지막에 단어의 끝을 알리는 토큰을 넣는다 ( ex. BANANA$ ).

2. 토큰을 넣은 문자열을 왼쪽으로 한 칸씩 Cyclic Shift를 수행하며 행렬을 생성한다.

3. 생성된 행렬의 각 행을 사전 순으로 Sorting 한다 ($ 토큰은 맨 마지막 순서). 이때 정렬된 형태의 행렬을 BW행렬이라고 한다.

4. 정렬된 행렬의 맨 마지막 열의 문자들로 생성된 문자열이 변화된 결과이다.


#그래서 BWT 특징이 뭐야

Ⅰ. 같은 single nucleotide끼리 붙어있는 경우의 수 증가

transform 전과 후의 문자열 길이는 사실 변함은 없다. 따라서 직접적으로 압축을 수행하는 알고리즘이 아니다. 하지만 input 안에서 중복되는 문자열이 많을수록 single character가 반복되는 경우가 생기기 때문에 압축하기가 매우 용이해진다.
특히 DNA, RNA sequence는 문자열이 A, C, G, T, U 정도밖에 없기 때문에 BWT로 transform 할 경우, 반복되는 문자가 굉장히 많아진다.
예를 들어, 다음의 문자열의 경우 단 하나도 연속되는 single nucleotide가 없는 input이다.
ACGTGCAGTCGATGCGATCGATGCTGACTGATGCAGCTGACTG
하지만 위의 sequence를 Burrow-Wheller Transform으로 변환하면 다음과 같다.
GGGCCGGGGGGGTTAAGGATTTCTCCTTTATACGACCCCAGAA


Ⅱ. 문자의 순서가 유지




#BWT를 이용한 문자열 매칭

-원래 문자열은 $를 제외한 row의 수와 일치하므로 6개의 글자로 이루어진 단어임을 알 수 있음.

-문자의 순서 유지.






-First column은 last column의 뒤에 있었던 문자.

-$는 원래 문자의 맨 마지막에 붙어 있었음. 따라서 A가 맨 마지막 글자임을 알 수 있음.


-알아낸 문자열 : A$










-Last column과 First column의 문자의 순서는 동일함.

-A0의 앞에는 N0임을 알 수 있음.


-알아낸 문자열 : NA$











-L은 F앞의 문자임.

-$는 원본이 아니기 때문에 역변환 종료.

-알아낸 문자열 : BANANA$







#Bowtie (FM-Index)

Bowtie 알고리즘인 FM-Index는 BWT 행렬의 Last First mapping 법칙을 이용하여 문자열 Index를 만든 방법으로 문자열에 대해 BWT를 수행함으로써 얻어짐.

-참고 : Bowtie의 불일치 정합은 그리디(greedy) 알고리즘 형태의 백트래킹(backtracking)을 통해 수행되는데, 이 때 허용되는 에러는 치환 (substitution) 뿐이다. (내가 보고싶은게 InDel variant인데 bowtie를 쓴다면? 써도되겠지만 나는 안쓸란다)


#BWA (BWT + Suffix array)

BWA는 BWT와 접미사 배열(Suffix array)을 이용하여 정렬을 수행하는 알고리즘.

-참고 : BWA MEM 이 성능이 좋다고 평가되어 Alignment 과정에서 가장 빈번하게 사용된다 (빠르고, 정확). 옵션 중에 지금 기억이 안나는데, 특정 파라미터를 조절하면 (불일치스코어 매기는거였나) InDel 찾는 성능이 좋아진다. (읽었던 파라미터 비교 관련 논문을 본 것같은데 확인하고 내용 보완해야겠다ㅜ)



마무리..
BWT 알고리즘 말고도, HASH 기반에 MAQ, STAMPY 같은 알고리즘이 있다는 것을 참고하고 공부해보자 (나중에..)
해시기반이 상대적으로 정확하다고는 하나, 우리가 주로 분석하는 30억 reference를 생각해보면,
또 몇개 샘플 단위가 아니라 몇십, 몇백 샘플을 분석한다면,
정확도가 조금 떨어지지만, 엄청 빠른 매핑할 수 있는 BWT 알고리즘이 있다는 것을 기억해두자.




BWT 알고리즘 End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[GWAS] Imputation  (2) 2018.07.09

Cogena-1 (CoExpression 분석) Start.

BioinformaticsAndMe



array 분석을 하다보면, 때로 수많은 DEG(Deferentially Expressed Gene) 형님들을 만나게 된다.

몇 천..?개는 다른 보정이 필요하겠고, 사실 몇 백개라도 골치 아프다.

아.. 수많은 DEG가지고 DAVID 돌려버리면 뭔가 두리뭉실한 기작만 나온다. GG



이럴때 나는

'Co-Expression 분석' 을 한다.


뭐 여러 정의가 있겠지만

간단히 말해서 유전자 발현(up, down) 양상이 비슷한 것 끼리 분석합시다.. 라고 나는 정의하겠다.

다시말해, 수많은 DEG들을 비슷한 발현양상을 갖는 그룹으로 클러스터링하여, 클러스터링된 DEG들의 기작을 살펴보는 것이다.

이것을 쉽게하기 위한 아래 R package를 추천한다.


'Cogena'

Co-expressed gene-set enrichment analysis 



논문에 나와있는 위 그림이 Cogena 를 단번에 설명해준다.

1. DEG 나옴.

2. 발현에따라 클러스터링 해줌 (클러스터링방법은많다).

3. 클러스터링 된 그룹에 무슨 Drug, Pathway가 Enrichment(빵빵)한지 분석을 해줌.




#############################################################################

BioinformaticsAndMe script

#############################################################################

1. cogena 패키지 설치

source("https://bioconductor.org/biocLite.R")

biocLite("cogena")

library(cogena)

# 예제(건선) 데이터 로딩

data(Psoriasis)

# 데이터 확인

ls()


2. Input data

# expression file

dim(DEexprs)

View(DEexprs)

# annotation file

sampleLabel

str(sampleLabel)

table(sampleLabel)


3. Pathway 데이터 로딩

# KEGG Pathway gene set

annoGMT <- "c2.cp.kegg.v5.0.symbols.gmt.xz“

# annotation 경로 지정

annofile <- system.file("extdata", annoGMT, package="cogena")

# GO 분석을 하고 싶다면,

# GO biological process gene set

# annoGMT <- "c5.bp.v5.0.symbols.gmt.xz"

아래표는 Cogena 가 가진 Annotation set이다. 잘 정리했군..


4. 파라미터 지정 (몇개 클러스터로 할건지, 무슨 clustering method를 쓸건지 등등)

# the number of clusters. It can be a vector.

# nClust <- 2:20

nClust <- 10

# Making factor "ct" , "Psoriasis"

sampleLabel <- factor(sampleLabel, levels=c("ct", "Psoriasis"))

# the clustering methods

# clMethods <- ("hierarchical","kmeans","diana","fanny","som","model",

# "sota","pam","clara","agnes") # All the methods can be used together.

clMethods <- c("hierarchical","pam")

# the distance metric

metric <- "correlation“

# the agglomeration method used for hierarchical clustering

method <- "complete"


5. Co-expression Analysis 시작

genecl_result <- coExp(DEexprs, nClust=nClust, clMethods=clMethods,

                       metric=metric, method=method)

summary(genecl_result)

# Enrichment (Pathway) analysis for the co-expressed genes

clen_res <- clEnrich(genecl_result, annofile=annofile, sampleLabel=sampleLabel)

summary(clen_res)


6. 클러스터링 결과 Heatmap 확인

# pam 클러스터링을 통해 10개의 클러스터 제작

# Always make the number as character, please!

# heatmap 그리기

heatmapCluster(clen_res, "pam", "10", maintitle="Psoriasis")



크... 일단 이쁘다.. 10개의 클러스티렁, up|down DEG, two샘플 그룹으로 heatmap이 만들어진다.

아! Pathway 봐야지!





7. 클러스터 Pathway 확인

# The enrichment score for 10 clusters, together with Down-regulated,Up-regulated and All DE genes.

heatmapPEI(clen_res, "pam", "10", maintitle="Pathway analysis for Psoriasis")

유전자 클러스터마다 어떤 pathway가 enrichment한지 보인다 (물론, 전체 only up, only down 도 볼 수있다).

옵션 조정해주면 특정 클러스터의 score 내림차순 기준으로 그림을 다시그려준다. 클러스터9 를 기준으로 다시그려보았다.




그림 왜이렇게 커...;;

Cogena-2 (CoExpression 분석) 에서 이어서 살펴보자.




Cogena-1 (CoExpression 분석) End.

BioinformaticsAndMe


'R' 카테고리의 다른 글

R, Command line interface Ⅱ  (0) 2018.07.20
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08
Cogena-2 (CoExpression 분석)  (0) 2018.07.06

+ Recent posts