Docker 시작하기 Start.

BioinformaticsAndMe



#Docker 가 뭘까? 위키백과 정의를 살펴보면.. 아래와 같다.

도커(Docker)리눅스의 응용 프로그램들을 소프트웨어 컨테이너 안에 배치시키는 일을 자동화하는 오픈 소스 프로젝트이다.

도커 컨테이너는 소프트웨어의 실행에 필요한 모든 것을 포함하는 완전한 파일 시스템 안에 감싼다. 여기에는 코드, 런타임, 시스템 도구, 시스템 라이브러리 등 서버에 설치되는 무엇이든 아우른다. 이는 실행 중인 환경에 관계 없이 언제나 동일하게 실행될 것을 보증한다.

빨간색으로 표시해놓은 것이 Docker의 핵심이자, 그러한 이유로 많은 유저들이 사용 중이다.

구글, 아마존 등 자사시스템이나 클라우드 환경에서 Docker 활용은 엄청나다.


위 그림이 Dokcer의 마스코트 흰수염고래?인데, 저 고래가 나르는 Container(컨테이너)가 별개의 소프트웨어 정도라 생각하면 되겠다.

음.. 저 고래가 우분투에 가서 자리잡으면 저 컨테이너에 있는 소프트웨어를 사용할 수 있고,

맥으로 가던, 윈도우로 가던 자리만 잡아주면 컨테이너를 사용할 수 있다 (설명이 너무 유치해서 죄송합니다).



#자.. 그래서 Bioinformatics를 공부하는 생물전공자가 왜 Docker 에 관심이 생겼을까?

사실 여러가지 이유가 있는데, 오늘은 처음 접했던 이유만 말하겠다.

생물정보학 분석①자동화 ②유동화 때문이었다.

①자동화 : 우리가 알고 있듯이, 생물정보학 분석이 툴 하나 돌려서 끝나는건 거의 없다. 뭐 NGS calling(QC-Alignment-Calling) 과정도 GATK 가이드라인을 철저히 따라하면 Step이 10개가 넘는다. Docker를 사용하면 전반적인 분석과정을 모듈화해 Automation 하기 좋다. 뭐 나중에 계속 얘기하겠지만 버전 관리나 파라미터 조절이 쉽다.

②유동화 : 내 실험실에 Bioinformatics 파이프라인을 다 완성했었는데, 서버를 업그레이드 했더니.. 안된다.. 이런 경우가 꽤 흔하다. 대부분의 툴이 특정 환경에 맞추어 제작된 것이기에 OS 변동이 크다면 먹통이 된다. 또한,  A회사에서 작업하던 파이프라인을 B회사에 곧바로 사용할 수없다. 하지만 Docker는 앞에 언급한 모든 것을 유동적으로 적용시킬 수 있다.


https://f1000research.com/articles/4-997/v1

위 논문에서 참조한 아래 그림을 살펴보자.

#전형적인 NGS pipeline for variant calling 을 Docker Container 를 이용해 파이프라인화 했다.

1. Pre-alignment quality control

2. Sequence alignment

3. Raw alignment processing (e.g. local realignment around candidate indel sites and base quality score recalibration)

4. Post-alignment quality control

5. Variant calling



# 또한, 'BioContainer' 라는 주제로 생물정보학 분석 툴들을 모아둔 Docker 사이트도 존재한다.

https://hub.docker.com/u/biocontainers/

한 번 다운받아서 tutorial대로 실행해보면 간단하게 분석 툴을 사용할 수 있음을 알게된다.



마무리하며..

앞으로 docker의 설치, 기본 command 에서부터 Bioinformatics 툴 활용까지 다뤄볼 예정이다.

필자가 computer science 에 정통하지 않기 때문에, 실수가 있을 수도 있다 (그렇다면 댓글...).

쏟아지는 생물학 데이터와 늘어나는 분석 툴을 효율적으로 관리할 수 있는 Docker 를 함께 알아간다는 점에 초점을 둘 것이다.



Docker 시작하기 End

BioinformaticsAndMe

'Program' 카테고리의 다른 글

Jupyter notebook (주피터 노트북)  (0) 2019.11.14
[Kubernetes] 쿠버네티스 소개  (0) 2019.10.18
API 기초 학습  (0) 2019.09.26
Docker 설치  (0) 2018.09.03
[Pachyderm] Splitting Data for Distributed Processing (분산처리)  (0) 2018.07.08
[Junior] Bio ICT Data 개발자

1. 주요 수행 업무 및 역할

  • Bio와 IT가 융합된 신사업을 추진하기 위애 Bioinformatics와 CS에 대한 지식과 경험을 두루 갖춘 융합형 인재를 채용하고자 합니다. 특히 급격히 증가하고 있는 유전체 데이터에 대한 처리 및 저장 기술을 확보하여 유전체 처리를 위한 IT 시스템 효율화를 진행하기 위해 다음과 같은 업무를 수행할 예정입니다.
    • GPU를 이용한 고속 분산 병렬 처리 기술 개발
    • 새로운 파일 저장 경로 및 포맷에 대한 개발

2. 필요 역량

  • 파일 시스템 및 압축 알고리즘에 대한 깊은 이해
  • 분산 파일 시스템 개발 경력
  • FUSE(Filesystem in USErspace)를 이용한 개발 경력 우대
  • CUDA를 이용한 고속 병렬 처리 개발 경력 우대
  • 오픈소스 공헌 및 관련 활동 경험 우대

3. 자격 요건

  • 관련분야 석사학위 이상 소지자
  • 분산 컴퓨팅 전공자 우대


주 근무지

 본사_SK T-타워

직무

 SW Engineering

조직

 Data_Unit
채용 유형 정규직
직급 유형 실무직(Junior)

접수기간

 2018. 7. 11- 2018. 8. 10 

#SK텔레콤 채용홈페이지

https://tas-sktelecom.taleo.net/careersection/ex/moresearch.ftl?lang=ko&portal


R, Command line interface Ⅰ Start.

BioinformaticsAndMe



R 의 기본 명령어와 Component 를 다뤄보자.


1. 변수 할당

-변수값 할당 연산자는 <-, <<-, = 를 사용한다.
-많은 소스에서 주요 연산자는 <- 를 사용한다. 
EX1) a <- 10
EX2) A <- 20

-알파벳, 숫자, _(언더바), .(마침표)로 구성된다.

- '-' (하이픈)은 사용불가.

-첫글자는 알파벳 또는 .(마침표)로만 시작해야 한다.

EX3) a-b <- 10
EX4) 1A <- 20


2. Data Type & Structure

R은 숫자형(numeric), 문자형(character), 논리형(logical) 그리고 복소수형(complex number) 총 4개의 저장 타입(storage mode)를 가지고 있으며 위의 type 하나 또는 그 이상의 조합으로 표현되는 벡터(vector), 행렬(matrix), 테이블(table), 데이터프레임(data frame), 리스트(list) 구조를 지닌다.
EX1) value <- 101 #numeric
EX2) string <- “bye” #character
EX3) logic <- 4 < 8 #logical
EX4) logic <- 4 != 8 #logical
EX5) mode(logic)


3. Basic operation
-벡터 값을 할당하기 위해서는 c() 라는 함수를 이용하여 할당할 수 있다.
-c : construct, combine, concatenate
EX1) x <- c(23, 34, 44)
EX2) x[1]

-숫자, 문자형이 혼재되어 있으면 문자형으로 강제 변환된다.
EX3) x <- c(1, 2, “R”)

-논리, 숫자형이 혼재되어 있으면 숫자형으로 강제 변환된다.
EX4) x <- c(1, 2, TRUE)


4. Element-wise
-R에서 벡터의 연산은 각 요소별로 pairwise하게 이뤄진다.
EX1) a <- c(1,2,3)
EX2) b <- c(4,5,6)
EX3) a*b
EX4) a <- c(1,2,3,4)
EX5) b <- c(4,5,6)
EX6) a*b


5. 벡터의 연산
> x <- 5;
> num <- c(100,500,1200)
> num/x
[1]  20 100 240

벡터변수 확인:
> num <- c(100,500,1200)
> num[1]
[1] 100
> num[2]
[1] 500
> num[3]
[1] 1200

Sequence의 선언:
> x=seq(from=0, to=2, by=0.5)
> y=seq(from=10, length=5)
> x
[1] 0.0 0.5 1.0 1.5 2.0
> y
[1] 10 11 12 13 14


6. 벡터의 조건문

EX1) x <- c(11, 12, 13, 14, 19, 20)

EX2) x > 15
EX3) x[x > 15]

-관계식에 맞는 index 추출
EX4) which( x > 15 )
EX5) which( x == 19 )


7.  행렬(Matrix) 다루기
-행렬의 선언
EX1) y <- matrix(1:20, nrow=5, ncol=4)
EX2) y <- matrix(1:20, nrow=5, ncol=4, byrow=TRUE)
-행렬 요소 추출
EX3) y[3, 2]
EX4) y[1, ]
EX5) y[ c(3,4), ]

-행렬 요소 치환
EX1) y[3, 2] <- 99
EX2) y[5, ] <- c(117, 118, 119, 120)
EX3) y[4, c(3,4)] <- c(115, 116)
-행렬의 연산
EX4) X <- matrix( 1:20, nrow=4)
EX5) sum(X)



R, Command line interface Ⅰ End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R, 결측치 처리 (Missing value, NA)  (0) 2018.07.26
R, Command line interface Ⅱ  (0) 2018.07.20
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08
Cogena-2 (CoExpression 분석)  (0) 2018.07.06

[Diagnosis] Liquid Biopsy (액체생검) Start.

BioinformaticsAndMe



1.Liquid biopsy (액체생검)

혈류 속에 존재하는 종양세포나 종양세포로부터 분비되는 핵산, 엑소좀(exosome)을 분석해 진단하는 방법이다.

최근 암 진단에서 각광받고 있는데, 암 세포가 깨지면서 생기는 미량의 DNA 조각을 말초혈액 속에서 찾아내는 진단 기술.

조직생검의 경우 외과 수술을 통하며 종양의 위치, 크기, 환자 상태 등에 따라 시행이 어려운 경우도 있으나,

액체생검은 혈액을 통해 검사하기 때문에 조직생검에 비해 빠르고 간편하다는 장점이 있다 (조기진단용, 동반진단용으로 구분).


아래 그림은  Liquid biopsy 를 통해 혈류나 체액으로부터 얻을 수 있는 Gene Product를 보여준다.


2.Liquid biopsy 필요성

a) 고위험군에서 암 검출 가능

b) 미세잔존질환의 모니터링 가능

c) 방사성검사 없이 암전이 확인 가능.

d) 치료에 대한 반응을 알 수 있음.

e) 치료에 적합한 약물 선택 가능.

f) 새로운 변이에 대한 확인이 가능.


아래는 'Swiss Integrative Center for Human Health'스위스 생명과학 회사에서 액체생검을 소개한 자료다.

LBEDD - LQUID BIOPSY FOR THE EARLY DETECTION OF DISEASES

액체생검을 이용하여 암을 1) 조기 진단 하고, 2) 암전이 사전 모니터링 이 가능하다는 것을 보여준다. 

이러한 Liquid biopsy Early detection의 유용성은 환자의 생존율을 이전보다 크게 향상시켜줄 것으로 예상된다.



3.Liquid biopsy 구성성분

ㄱ) 순환 종양 세포(CTC, Circulating Tumor Cells)

-CTC는 악성 종양 환자의 말초혈액에서 발견되는 종양세포이며, 초기 종양 및 전이가 진행된 조직으로부터도 유래.

​-혈액 속의 CTC는 극히 드물어서 (0~10개/ml blood) 검출이 어렵고, Heterogeneous 세포들의 집합체로 나타남.

-CTC 중 일부가 전이 능력이 있을 것으로 추정.


ㄴ) 순환 종양 핵산(cfDNA, Cell-free DNA)

-cfDNA는 질환뿐만 아니라 정상적인 기전으로도 혈액 속으로 방출됨.

-암환자의 종양으로부터 방출된 Cell-free DNA를 circulating tumor DNA (ctDNA)라 정의.

-DNA의 검출하여 mutation, microsatellite, methylation 등의 특성을 분석하고, 종양의 유무 및 상태를 추정.

-Cancer Stage 1~4 에서의 ctDNA를 확인했을 때, Stage가 높아질수록 ctDNA 농도 증가가 알려짐(47%, 55%, 69%, 82%).


ㄷ) 엑소좀(Exosomes)

-엑소좀은 모든 살아있는 세포에서 발견되는 미세소포(microvesicles).

-엑소좀은 세포에서 방출될 때 작은 크기(30-150nm)의 소포 형태를 가지며 다양한 DNA, RNA, PROTEIN을 포함.

-최근 암 환자의 체액에 존재하는 암 특이적인 Exosome의 다양한 정보들이 확인되면서, 질환 상태 및 치료 평가의 바이오마커 가능성 제시.





[Diagnosis] Liquid Biopsy (액체생검) End.

BioinformaticsAndMe



'Technology' 카테고리의 다른 글

[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11
[Blockchain] 블록체인과 헬스케어 (2)  (0) 2018.07.18
[Blockchain] 블록체인과 헬스케어 (1)  (1) 2018.07.18

CADD (Computer-Aided Drug Design) Start.

BioinformaticsAndMe



CADD란?

Computer-Aided Drug Design

신약개발 과정에 활용되고 있는 컴퓨터 기반 신약 디자인 과정으로,

컴퓨터로 화합물의 입체 구조 및 의약품 활성 등을 연구하기 위한 시스템.

Drug discovery 과정에서 CADD는 Target identification ~ Preclinical test 까지 영향을 미치고 있음.


Drug Discovery 과정 단계별 정의

1.Target identification : 특정 질병을 유발하는 원인을 찾고, 그것을 조절하는 타겟 단백질을 선정.

2.Target validation : 선정된 타겟의 제어와 목표하는 질환 치료와의 상관, 인과관계를 검증. ex) Knockout mouse 로 해당 타겟 단백질의 유효성 검증.

3.Lead identification : 타겟 단백질의 약리적인 활성을 나타내는 화합물 작용기들을 조절하면서 약리활성이 향상되는 구조를 찾음.

4.Lead optimization : 약동학(pharmacokinetics) 관점에서, 만들어진 물질(Lead)이 체내에서 운반, 효능, 부작용 등을 개선하려는 연구.

5.Preclinical test : 앞서 과정으로 도출된 후보물질의 유효성과 독성을 검증하기 위해, 동물 모델을 대상으로 생화학적 실험의 단계.

-전임상에서는 화합물의 흡수(Absorption), 분배(Distribution), 대사(Metabolism), 배출(Excretion), 독성(Toxicity)의 ADMET 연구 수행.

6.Clinical test

-Phase Ⅰ대상 질병의 환자를 대상으로 내약성, 부작용 및 약물의 체내 동태 등 안정성 확인을 하는 단계.

-Phase Ⅱ소수의 환자를 대상으로 유효성 및 안전성을 평가하여, 신약 가능성과 최적 용량 용법을 결정하고 치료효과를 탐색하는 단계.

-Phase Ⅲ가장 큰 규모의 임상시험 단계로 다수의 환자를 대상으로 유효성에 대한 추가 정보 및 확증적 자료를 확보하는 단계.

-Phase Ⅳ신약 시판 후 조사 단계. 신약이 시장에 출시된 후, 환자들에게 투여했을 때 예상치 못했던 부작용을 추가로 조사하는 단계.





CADD에서 사용되는 방법은 2가지로 구분 된다.

#SBDD(Structure-Based Drug Design)

-신약의 표적이 되는 수용체 단백질과 약물복합체의 입체구조를 바탕으로 컴퓨터 모델링을 구사해서 새로운 활성물질을 설계하는 작업. 

-molecular docking : 단백질 구조에서 약물이 결합하는 부위에 다양한 화합물 구조를 두고, 어떤 단백질과 강하게 상호작용을 하는지 계산.

-예: Protein-ligand docking, Scoring & Ranking

#LBDD(Ligand-Based Drug Design)

-단백질 구조가 밝혀져 있지 않은 경우에는, 화합물의 약물 구조만을 이용해서 화합물의 성질을 미리 예측.

-QSAR(Quantitative Structure-Activity Relationships) : 화합물의 구조가 활성과 연관이 있기 때문에, 비슷한 구조를 가진 화합물은 활성도 비슷하게 나타낼 것이라 가정. 실험을 통해서 쌓인 데이터를 통해 공통된 패턴을 찾아내고 이를 통해 활성 값까지 예측. 

-예: Similarity searching, Pharmacophore mapping, Machine learning

Virtual screening : CADD 방법들을 종합해서 여러 화합물 중 신약 개발에 성공할 가능성이 높은 화합물로 필터링 하는 과정.




CADD (Computer-Aided Drug Design) End

BioinformaticsAndMe



'Drug Discovery' 카테고리의 다른 글

CADD(Computer-Aided Drug Design)_v2  (0) 2019.05.21
Ligand 라이브러리 for CADD  (0) 2018.09.05
Ligand 데이터베이스  (0) 2018.09.03
Cloud Drug discovery  (0) 2018.08.15
Drug repositioning (신약재창출)  (0) 2018.07.23

SK, 미국 바이오의약품 위탁생산(CDMO)기업 앰팩(AMPAC) 인수 Start.

BioinformaticsAndMe



SK, 미국 바이오의약품 위탁생산(CDMO)기업 앰팩(AMPAC) 인수


2018년 7월 12일, SK는 바이오의약품 위탁생산(CDMO) 업체인 ‘AMPAC’의 지분 100%를 인수하기 위해,

‘Alchemy Acquisition Corp’에 5,000억원을 투자했다고 공시.

AMPAC의 현재 매출액은 1.7억달러(2000억) 규모로 알려져 있으며,

SK바이오텍의 마진과 비슷한 수준임을 가정 시 인수금액이 과도한 수준은 아닐 것으로 예상.



#AMPAC Fine Chemicals

- AMPAC Fine Chemicals 는 미국의 10대 바이오 제약 위탁개발생산(CDMO) 전문기업.

- 1990 년대 미국 캘리포니아에 설립된 원료의약품 제조기업으로 항암제와 중추신경계, 심혈관 치료제 등에 쓰이는 원료의약품을 생산하며 연 15%이상 고성장 중.

- 특히 미국 제약사들이 밀집돼 있는 서부지역에 위치해 다수의 유망 혁신 신약제품의 임상 및 상업제품을 공급하고 있음.

- 글로벌 대형 제약사들과 20 년 이상 장기간에 걸친 파트너십을 맺어 고도의 기술력과 품질관리를 요하는 의약품을 생산.

- 미국 내 3 곳 (캘리포니아, 텍사스, 버지니아)의 생산시설(약 600,000L)과 연구시설 1 곳을 보유.

- 500 명 이상의 임직원이 근무 중.

- 생산시설은 미국 FDA의 검사관 교육장소로 활용하고 있을 정도로 최고 수준의 생산관리 역량을 보유하고 있음 자료.


#CDMO (Contract Development and Manufacturing Organization)

CDMO란 항체 바이오 의약품 위탁생산(CMO·Contract Manufacturing Organization)과 위탁개발(CDO·Contract Development Organization)을 함께 일컫는 말이다. 세포주를 받아서 생산하면 CMO, DNA로 받아서 세포주를 만든 후 생산까지 하면 CDO다.


#CDMO 관련주

-셀트리온, 삼성바이오로직스




SK, 미국 바이오의약품 위탁생산(CDMO)기업 앰팩(AMPAC) 인수 End

BioinformaticsAndMe

+ Recent posts