Docker 시작하기 Start.

BioinformaticsAndMe



#Docker 가 뭘까? 위키백과 정의를 살펴보면.. 아래와 같다.

도커(Docker)리눅스의 응용 프로그램들을 소프트웨어 컨테이너 안에 배치시키는 일을 자동화하는 오픈 소스 프로젝트이다.

도커 컨테이너는 소프트웨어의 실행에 필요한 모든 것을 포함하는 완전한 파일 시스템 안에 감싼다. 여기에는 코드, 런타임, 시스템 도구, 시스템 라이브러리 등 서버에 설치되는 무엇이든 아우른다. 이는 실행 중인 환경에 관계 없이 언제나 동일하게 실행될 것을 보증한다.

빨간색으로 표시해놓은 것이 Docker의 핵심이자, 그러한 이유로 많은 유저들이 사용 중이다.

구글, 아마존 등 자사시스템이나 클라우드 환경에서 Docker 활용은 엄청나다.


위 그림이 Dokcer의 마스코트 흰수염고래?인데, 저 고래가 나르는 Container(컨테이너)가 별개의 소프트웨어 정도라 생각하면 되겠다.

음.. 저 고래가 우분투에 가서 자리잡으면 저 컨테이너에 있는 소프트웨어를 사용할 수 있고,

맥으로 가던, 윈도우로 가던 자리만 잡아주면 컨테이너를 사용할 수 있다 (설명이 너무 유치해서 죄송합니다).



#자.. 그래서 Bioinformatics를 공부하는 생물전공자가 왜 Docker 에 관심이 생겼을까?

사실 여러가지 이유가 있는데, 오늘은 처음 접했던 이유만 말하겠다.

생물정보학 분석①자동화 ②유동화 때문이었다.

①자동화 : 우리가 알고 있듯이, 생물정보학 분석이 툴 하나 돌려서 끝나는건 거의 없다. 뭐 NGS calling(QC-Alignment-Calling) 과정도 GATK 가이드라인을 철저히 따라하면 Step이 10개가 넘는다. Docker를 사용하면 전반적인 분석과정을 모듈화해 Automation 하기 좋다. 뭐 나중에 계속 얘기하겠지만 버전 관리나 파라미터 조절이 쉽다.

②유동화 : 내 실험실에 Bioinformatics 파이프라인을 다 완성했었는데, 서버를 업그레이드 했더니.. 안된다.. 이런 경우가 꽤 흔하다. 대부분의 툴이 특정 환경에 맞추어 제작된 것이기에 OS 변동이 크다면 먹통이 된다. 또한,  A회사에서 작업하던 파이프라인을 B회사에 곧바로 사용할 수없다. 하지만 Docker는 앞에 언급한 모든 것을 유동적으로 적용시킬 수 있다.


https://f1000research.com/articles/4-997/v1

위 논문에서 참조한 아래 그림을 살펴보자.

#전형적인 NGS pipeline for variant calling 을 Docker Container 를 이용해 파이프라인화 했다.

1. Pre-alignment quality control

2. Sequence alignment

3. Raw alignment processing (e.g. local realignment around candidate indel sites and base quality score recalibration)

4. Post-alignment quality control

5. Variant calling



# 또한, 'BioContainer' 라는 주제로 생물정보학 분석 툴들을 모아둔 Docker 사이트도 존재한다.

https://hub.docker.com/u/biocontainers/

한 번 다운받아서 tutorial대로 실행해보면 간단하게 분석 툴을 사용할 수 있음을 알게된다.



마무리하며..

앞으로 docker의 설치, 기본 command 에서부터 Bioinformatics 툴 활용까지 다뤄볼 예정이다.

필자가 computer science 에 정통하지 않기 때문에, 실수가 있을 수도 있다 (그렇다면 댓글...).

쏟아지는 생물학 데이터와 늘어나는 분석 툴을 효율적으로 관리할 수 있는 Docker 를 함께 알아간다는 점에 초점을 둘 것이다.



Docker 시작하기 End

BioinformaticsAndMe

'Program' 카테고리의 다른 글

Jupyter notebook (주피터 노트북)  (0) 2019.11.14
[Kubernetes] 쿠버네티스 소개  (0) 2019.10.18
API 기초 학습  (0) 2019.09.26
Docker 설치  (0) 2018.09.03
[Pachyderm] Splitting Data for Distributed Processing (분산처리)  (0) 2018.07.08
[Junior] Bio ICT Data 개발자

1. 주요 수행 업무 및 역할

  • Bio와 IT가 융합된 신사업을 추진하기 위애 Bioinformatics와 CS에 대한 지식과 경험을 두루 갖춘 융합형 인재를 채용하고자 합니다. 특히 급격히 증가하고 있는 유전체 데이터에 대한 처리 및 저장 기술을 확보하여 유전체 처리를 위한 IT 시스템 효율화를 진행하기 위해 다음과 같은 업무를 수행할 예정입니다.
    • GPU를 이용한 고속 분산 병렬 처리 기술 개발
    • 새로운 파일 저장 경로 및 포맷에 대한 개발

2. 필요 역량

  • 파일 시스템 및 압축 알고리즘에 대한 깊은 이해
  • 분산 파일 시스템 개발 경력
  • FUSE(Filesystem in USErspace)를 이용한 개발 경력 우대
  • CUDA를 이용한 고속 병렬 처리 개발 경력 우대
  • 오픈소스 공헌 및 관련 활동 경험 우대

3. 자격 요건

  • 관련분야 석사학위 이상 소지자
  • 분산 컴퓨팅 전공자 우대


주 근무지

 본사_SK T-타워

직무

 SW Engineering

조직

 Data_Unit
채용 유형 정규직
직급 유형 실무직(Junior)

접수기간

 2018. 7. 11- 2018. 8. 10 

#SK텔레콤 채용홈페이지

https://tas-sktelecom.taleo.net/careersection/ex/moresearch.ftl?lang=ko&portal


R, Command line interface Ⅰ Start.

BioinformaticsAndMe



R 의 기본 명령어와 Component 를 다뤄보자.


1. 변수 할당

-변수값 할당 연산자는 <-, <<-, = 를 사용한다.
-많은 소스에서 주요 연산자는 <- 를 사용한다. 
EX1) a <- 10
EX2) A <- 20

-알파벳, 숫자, _(언더바), .(마침표)로 구성된다.

- '-' (하이픈)은 사용불가.

-첫글자는 알파벳 또는 .(마침표)로만 시작해야 한다.

EX3) a-b <- 10
EX4) 1A <- 20


2. Data Type & Structure

R은 숫자형(numeric), 문자형(character), 논리형(logical) 그리고 복소수형(complex number) 총 4개의 저장 타입(storage mode)를 가지고 있으며 위의 type 하나 또는 그 이상의 조합으로 표현되는 벡터(vector), 행렬(matrix), 테이블(table), 데이터프레임(data frame), 리스트(list) 구조를 지닌다.
EX1) value <- 101 #numeric
EX2) string <- “bye” #character
EX3) logic <- 4 < 8 #logical
EX4) logic <- 4 != 8 #logical
EX5) mode(logic)


3. Basic operation
-벡터 값을 할당하기 위해서는 c() 라는 함수를 이용하여 할당할 수 있다.
-c : construct, combine, concatenate
EX1) x <- c(23, 34, 44)
EX2) x[1]

-숫자, 문자형이 혼재되어 있으면 문자형으로 강제 변환된다.
EX3) x <- c(1, 2, “R”)

-논리, 숫자형이 혼재되어 있으면 숫자형으로 강제 변환된다.
EX4) x <- c(1, 2, TRUE)


4. Element-wise
-R에서 벡터의 연산은 각 요소별로 pairwise하게 이뤄진다.
EX1) a <- c(1,2,3)
EX2) b <- c(4,5,6)
EX3) a*b
EX4) a <- c(1,2,3,4)
EX5) b <- c(4,5,6)
EX6) a*b


5. 벡터의 연산
> x <- 5;
> num <- c(100,500,1200)
> num/x
[1]  20 100 240

벡터변수 확인:
> num <- c(100,500,1200)
> num[1]
[1] 100
> num[2]
[1] 500
> num[3]
[1] 1200

Sequence의 선언:
> x=seq(from=0, to=2, by=0.5)
> y=seq(from=10, length=5)
> x
[1] 0.0 0.5 1.0 1.5 2.0
> y
[1] 10 11 12 13 14


6. 벡터의 조건문

EX1) x <- c(11, 12, 13, 14, 19, 20)

EX2) x > 15
EX3) x[x > 15]

-관계식에 맞는 index 추출
EX4) which( x > 15 )
EX5) which( x == 19 )


7.  행렬(Matrix) 다루기
-행렬의 선언
EX1) y <- matrix(1:20, nrow=5, ncol=4)
EX2) y <- matrix(1:20, nrow=5, ncol=4, byrow=TRUE)
-행렬 요소 추출
EX3) y[3, 2]
EX4) y[1, ]
EX5) y[ c(3,4), ]

-행렬 요소 치환
EX1) y[3, 2] <- 99
EX2) y[5, ] <- c(117, 118, 119, 120)
EX3) y[4, c(3,4)] <- c(115, 116)
-행렬의 연산
EX4) X <- matrix( 1:20, nrow=4)
EX5) sum(X)



R, Command line interface Ⅰ End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R, 결측치 처리 (Missing value, NA)  (0) 2018.07.26
R, Command line interface Ⅱ  (0) 2018.07.20
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08
Cogena-2 (CoExpression 분석)  (0) 2018.07.06

[Diagnosis] Liquid Biopsy (액체생검) Start.

BioinformaticsAndMe



1.Liquid biopsy (액체생검)

혈류 속에 존재하는 종양세포나 종양세포로부터 분비되는 핵산, 엑소좀(exosome)을 분석해 진단하는 방법이다.

최근 암 진단에서 각광받고 있는데, 암 세포가 깨지면서 생기는 미량의 DNA 조각을 말초혈액 속에서 찾아내는 진단 기술.

조직생검의 경우 외과 수술을 통하며 종양의 위치, 크기, 환자 상태 등에 따라 시행이 어려운 경우도 있으나,

액체생검은 혈액을 통해 검사하기 때문에 조직생검에 비해 빠르고 간편하다는 장점이 있다 (조기진단용, 동반진단용으로 구분).


아래 그림은  Liquid biopsy 를 통해 혈류나 체액으로부터 얻을 수 있는 Gene Product를 보여준다.


2.Liquid biopsy 필요성

a) 고위험군에서 암 검출 가능

b) 미세잔존질환의 모니터링 가능

c) 방사성검사 없이 암전이 확인 가능.

d) 치료에 대한 반응을 알 수 있음.

e) 치료에 적합한 약물 선택 가능.

f) 새로운 변이에 대한 확인이 가능.


아래는 'Swiss Integrative Center for Human Health'스위스 생명과학 회사에서 액체생검을 소개한 자료다.

LBEDD - LQUID BIOPSY FOR THE EARLY DETECTION OF DISEASES

액체생검을 이용하여 암을 1) 조기 진단 하고, 2) 암전이 사전 모니터링 이 가능하다는 것을 보여준다. 

이러한 Liquid biopsy Early detection의 유용성은 환자의 생존율을 이전보다 크게 향상시켜줄 것으로 예상된다.



3.Liquid biopsy 구성성분

ㄱ) 순환 종양 세포(CTC, Circulating Tumor Cells)

-CTC는 악성 종양 환자의 말초혈액에서 발견되는 종양세포이며, 초기 종양 및 전이가 진행된 조직으로부터도 유래.

​-혈액 속의 CTC는 극히 드물어서 (0~10개/ml blood) 검출이 어렵고, Heterogeneous 세포들의 집합체로 나타남.

-CTC 중 일부가 전이 능력이 있을 것으로 추정.


ㄴ) 순환 종양 핵산(cfDNA, Cell-free DNA)

-cfDNA는 질환뿐만 아니라 정상적인 기전으로도 혈액 속으로 방출됨.

-암환자의 종양으로부터 방출된 Cell-free DNA를 circulating tumor DNA (ctDNA)라 정의.

-DNA의 검출하여 mutation, microsatellite, methylation 등의 특성을 분석하고, 종양의 유무 및 상태를 추정.

-Cancer Stage 1~4 에서의 ctDNA를 확인했을 때, Stage가 높아질수록 ctDNA 농도 증가가 알려짐(47%, 55%, 69%, 82%).


ㄷ) 엑소좀(Exosomes)

-엑소좀은 모든 살아있는 세포에서 발견되는 미세소포(microvesicles).

-엑소좀은 세포에서 방출될 때 작은 크기(30-150nm)의 소포 형태를 가지며 다양한 DNA, RNA, PROTEIN을 포함.

-최근 암 환자의 체액에 존재하는 암 특이적인 Exosome의 다양한 정보들이 확인되면서, 질환 상태 및 치료 평가의 바이오마커 가능성 제시.





[Diagnosis] Liquid Biopsy (액체생검) End.

BioinformaticsAndMe



'Technology' 카테고리의 다른 글

[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12
[NGS] Next Generation Sequencing  (0) 2018.08.11
[Blockchain] 블록체인과 헬스케어 (2)  (0) 2018.07.18
[Blockchain] 블록체인과 헬스케어 (1)  (1) 2018.07.18

CADD (Computer-Aided Drug Design) Start.

BioinformaticsAndMe



CADD란?

Computer-Aided Drug Design

신약개발 과정에 활용되고 있는 컴퓨터 기반 신약 디자인 과정으로,

컴퓨터로 화합물의 입체 구조 및 의약품 활성 등을 연구하기 위한 시스템.

Drug discovery 과정에서 CADD는 Target identification ~ Preclinical test 까지 영향을 미치고 있음.


Drug Discovery 과정 단계별 정의

1.Target identification : 특정 질병을 유발하는 원인을 찾고, 그것을 조절하는 타겟 단백질을 선정.

2.Target validation : 선정된 타겟의 제어와 목표하는 질환 치료와의 상관, 인과관계를 검증. ex) Knockout mouse 로 해당 타겟 단백질의 유효성 검증.

3.Lead identification : 타겟 단백질의 약리적인 활성을 나타내는 화합물 작용기들을 조절하면서 약리활성이 향상되는 구조를 찾음.

4.Lead optimization : 약동학(pharmacokinetics) 관점에서, 만들어진 물질(Lead)이 체내에서 운반, 효능, 부작용 등을 개선하려는 연구.

5.Preclinical test : 앞서 과정으로 도출된 후보물질의 유효성과 독성을 검증하기 위해, 동물 모델을 대상으로 생화학적 실험의 단계.

-전임상에서는 화합물의 흡수(Absorption), 분배(Distribution), 대사(Metabolism), 배출(Excretion), 독성(Toxicity)의 ADMET 연구 수행.

6.Clinical test

-Phase Ⅰ대상 질병의 환자를 대상으로 내약성, 부작용 및 약물의 체내 동태 등 안정성 확인을 하는 단계.

-Phase Ⅱ소수의 환자를 대상으로 유효성 및 안전성을 평가하여, 신약 가능성과 최적 용량 용법을 결정하고 치료효과를 탐색하는 단계.

-Phase Ⅲ가장 큰 규모의 임상시험 단계로 다수의 환자를 대상으로 유효성에 대한 추가 정보 및 확증적 자료를 확보하는 단계.

-Phase Ⅳ신약 시판 후 조사 단계. 신약이 시장에 출시된 후, 환자들에게 투여했을 때 예상치 못했던 부작용을 추가로 조사하는 단계.





CADD에서 사용되는 방법은 2가지로 구분 된다.

#SBDD(Structure-Based Drug Design)

-신약의 표적이 되는 수용체 단백질과 약물복합체의 입체구조를 바탕으로 컴퓨터 모델링을 구사해서 새로운 활성물질을 설계하는 작업. 

-molecular docking : 단백질 구조에서 약물이 결합하는 부위에 다양한 화합물 구조를 두고, 어떤 단백질과 강하게 상호작용을 하는지 계산.

-예: Protein-ligand docking, Scoring & Ranking

#LBDD(Ligand-Based Drug Design)

-단백질 구조가 밝혀져 있지 않은 경우에는, 화합물의 약물 구조만을 이용해서 화합물의 성질을 미리 예측.

-QSAR(Quantitative Structure-Activity Relationships) : 화합물의 구조가 활성과 연관이 있기 때문에, 비슷한 구조를 가진 화합물은 활성도 비슷하게 나타낼 것이라 가정. 실험을 통해서 쌓인 데이터를 통해 공통된 패턴을 찾아내고 이를 통해 활성 값까지 예측. 

-예: Similarity searching, Pharmacophore mapping, Machine learning

Virtual screening : CADD 방법들을 종합해서 여러 화합물 중 신약 개발에 성공할 가능성이 높은 화합물로 필터링 하는 과정.




CADD (Computer-Aided Drug Design) End

BioinformaticsAndMe



'Drug Discovery' 카테고리의 다른 글

CADD(Computer-Aided Drug Design)_v2  (0) 2019.05.21
Ligand 라이브러리 for CADD  (0) 2018.09.05
Ligand 데이터베이스  (0) 2018.09.03
Cloud Drug discovery  (0) 2018.08.15
Drug repositioning (신약재창출)  (0) 2018.07.23

SK, 미국 바이오의약품 위탁생산(CDMO)기업 앰팩(AMPAC) 인수 Start.

BioinformaticsAndMe



SK, 미국 바이오의약품 위탁생산(CDMO)기업 앰팩(AMPAC) 인수


2018년 7월 12일, SK는 바이오의약품 위탁생산(CDMO) 업체인 ‘AMPAC’의 지분 100%를 인수하기 위해,

‘Alchemy Acquisition Corp’에 5,000억원을 투자했다고 공시.

AMPAC의 현재 매출액은 1.7억달러(2000억) 규모로 알려져 있으며,

SK바이오텍의 마진과 비슷한 수준임을 가정 시 인수금액이 과도한 수준은 아닐 것으로 예상.



#AMPAC Fine Chemicals

- AMPAC Fine Chemicals 는 미국의 10대 바이오 제약 위탁개발생산(CDMO) 전문기업.

- 1990 년대 미국 캘리포니아에 설립된 원료의약품 제조기업으로 항암제와 중추신경계, 심혈관 치료제 등에 쓰이는 원료의약품을 생산하며 연 15%이상 고성장 중.

- 특히 미국 제약사들이 밀집돼 있는 서부지역에 위치해 다수의 유망 혁신 신약제품의 임상 및 상업제품을 공급하고 있음.

- 글로벌 대형 제약사들과 20 년 이상 장기간에 걸친 파트너십을 맺어 고도의 기술력과 품질관리를 요하는 의약품을 생산.

- 미국 내 3 곳 (캘리포니아, 텍사스, 버지니아)의 생산시설(약 600,000L)과 연구시설 1 곳을 보유.

- 500 명 이상의 임직원이 근무 중.

- 생산시설은 미국 FDA의 검사관 교육장소로 활용하고 있을 정도로 최고 수준의 생산관리 역량을 보유하고 있음 자료.


#CDMO (Contract Development and Manufacturing Organization)

CDMO란 항체 바이오 의약품 위탁생산(CMO·Contract Manufacturing Organization)과 위탁개발(CDO·Contract Development Organization)을 함께 일컫는 말이다. 세포주를 받아서 생산하면 CMO, DNA로 받아서 세포주를 만든 후 생산까지 하면 CDO다.


#CDMO 관련주

-셀트리온, 삼성바이오로직스




SK, 미국 바이오의약품 위탁생산(CDMO)기업 앰팩(AMPAC) 인수 End

BioinformaticsAndMe

R, RStudio 설치 Start.

BioinformaticsAndMe



오픈소스 통계 프로그래밍 언어 R

R 통합개발 분석 환경 (IDE, Integrated Development Environment)인 RStudio 설치를 해보자.


1. R 설치

R은 Windows, MAC OS X, Linux 환경 모두에서 설치 가능하다. 여기서는 Window를 기준으로 설치를 진행한다.

R을 설치하려면 아래 보이는 공식사이트(https://www.r-project.org/)에서 R소프트웨어를 다운로드 한다. 
현재 최신버전은 3.5.1 (2018년07월02일) 이다.

아래의 download R을 클릭하면 R을 설치할 수 있는 Mirror 사이트로 연결된다. 





Mirror 사이트의 모습이다.
해당되는 국가 미러사이트에서 받는게 속도가 빠르다.




Window용을 클릭한 뒤 하위폴더에에서 install R for the first time을 선택하면 다운로드가 페이지가 뜬다.

여기서 Download R 3.5.1. for Windows를 클릭하면 다운로드 창이 보인다.

(나머지 과정은 생략하겠다.. 사진이 너무 많아..)


2. RStudio 설치

RStudio는 코드 직접실행, 구문강조, 괄호 자동입력지원, 명령어 완성, 다양한 단축키, 데이터 보기 및 가져오기, 그래픽 조작, 프로젝트 관리, 버전 관리 등의 다양한 기능을 제공한다. RStudio를 설치하기 위해서 RStudio 홈페이지로 이동한다. 

https://www.rstudio.com/


공식홈페이지에서 Download RStudio를 누르자.



클릭해서 들어가면 처음에 무슨 달러 써있고 이래서 놀랄 수 있는데, 가볍게 지나치고

스크롤을 내리면 아래 같은 화면이 나오고 해당 OS에 맞게 설치해주면 끝난다.


모든 설치가 끝나면 4개의 영역으로 구성된 RStudio를 볼 수 있겠다.

1. 소스 편집기 및 데이터view

2. R 콘솔

3. 작업환경과 히스토리

4. 파일, 플롯, 패키지, 도움말




R, RStudio 설치 End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R, Command line interface Ⅱ  (0) 2018.07.20
R, Command line interface Ⅰ  (0) 2018.07.16
Permutation test (순열검정법)  (7) 2018.07.08
Cogena-2 (CoExpression 분석)  (0) 2018.07.06
Cogena-1 (CoExpression 분석)  (0) 2018.07.05

[Driver Annotation] iCAGES Start.

BioinformaticsAndMe



Cancer genomics 분석으로 Somatic mutation(체세포 돌연변이) 나왔을때, 그 변이가 해당암에서 Driver 역할을 하는지 알고싶다.

그래서 연구자들은 MuSiC, SIFT, FunSeq2 등의 프로그램들을 개발해왔고, Cancer에서 Driver variant 혹은 gene을 찾아 결과를 냈다.

오늘 소개할 툴은 이와 같은 맥락으로 만들어진

iCAGES (integrated CAncer GEnome Score for comprehensively prioritizing driver genes in personal cancer genomes) 를 다뤄보겠다.

iCAGES 는 coding, noncoding, structure 변이의 기여도를 종합하여, 분석으로 확인된 변이 및 유전자의 우선 순위를 메기고,

기존의 연구된 biological knowledge를 기반으로 driver gene을 찾는다. 최종적으로는, Driver gene들의 Drug treatment 까지 고려하여

우선 순위의 약물을 제시하는 플랫폼이 되겠다.



아래는 Driver gene 을 찾는 여러 툴들 간의 비교 테이블이다.

큰 카테고리로 Genomic variant analysis, Transcriptomic expression analysis, Phosphorylation analysis 의 3개로 나눠져있다.

MuSiC이나 SIFT같은 이미 많이 알려진 툴들이 보인다.

iCAGES 기능 중 Personalized drug, Prior knowledge integration 가 눈에 띄는데,

Personalized drug 은 특정 환자에서 나온 변이에 대해 Drug prioritization 을 해준다는 것이고,

Prior knowledge integration 은 Phenolyzer(database-mining tool)을 이용해 기존 관련 연구 내용을 스코어링해 prioritization을 돕는다는 것으로 보인다.



#iCAGES 의 파이프라인은 크게 3개의 layer를 가지고 분석이 진행된다.

Layer 1: Variant prioritization

첫 번째 layer는 돌연변이를 먼저, 여러 툴로 annotation한다. 그리고 coding, noncoding, SV 에서 각각 prioritization 스코어를 얻고 표준화시킨다.


Layer 2: Gene prioritization

두 번째 layer 는 모든 유전자 변이에 대한 점수를 위에서 전달받고, 몇몇 알고리즘을 거쳐 각 유전자에 대한 iCAGES score를 얻는다 (암유전자일수록 높은 스코어를 가질 가능성이 높다).


Layer 3: Drug prioritization

iCAGES의 마지막 단계는 표적 약물의 우선 순위를 정한다. 앞에서 받은 유전자를 DGIdb와 FDA Drug db에 쿼리하여, 해당 유전자가 Driver gene이 될 수있는지 표적으로 삼는 모든 potential drug을 찾고 스코어링 한다.




http://icages.wglab.org

iCAGES 논문에서는 위 사진처럼 웹에서도 쉽게 사용할 수 있다고해서 가봤더니, 안된다; 웹서버가 안된지 꽤 된 것으로 보인다..

하지만 아래 사이트엑 가면, iCAGES 다운로드와 튜토리얼을 친절하게 제공해주고 있으니 참고하면 좋겠다.

#iCAGES 다운 및 설치

http://boevalab.com/ONCOCNV/http://icages.openbioinformatics.org/en/latest/



마무리하며...

암유전체뿐만아니라 많은 연구에서 Driver gene을 찾는데 많은 노력을 기울이고 있다.

다양한 데이터베이스와 알고리즘이 알려져 있는데, iCAGES 툴을 공부하다 보면 어느정도 흐름이 보인다.

Drive gene 찾는 연구 초기에 분석을 어떤식으로 진행할지 막막하다면,

iCAGES 를 사용하면서 어떤 논리와 기준으로 스코어링을 메겨 Driver gene과 variant를 찾는지 봐두면 좋겠다.


iCAGES 논문

https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-016-0390-0#Tab1




[Driver Annotation] iCAGES End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Cytoscape] GeneMANIA 1  (0) 2018.07.22
[CNV] ONCOCNV  (0) 2018.07.08

1. 지원 자격요건

국가공무원법 제33조의 결격사유가 없는 자

남자의 경우 병역을 필한 자(군면제 포함)로 해외여행에 결격사유가 없는 자

 

2. 공통 우대사항

「국가유공자 등 예우 및 지원에 관한 법률」등의 국가보훈대상자

 국가보훈처에서 「취업지원대상자증명서」를 반드시 발급받아 제출(공고일 기준 발급)

「장애인고용촉진 및 직업재활법」에 의한 장애인

 

3. 채용분야(중복지원 불가능)

공통사항

고용계약 : 임용일로부터 1 

(※업무수행 능력 우수자에 한하여 매년 재계약 가능)

영어능력 연구직의 경우 영어 논문작성 및 학회발표 등 영어능력이

필수적이므로 일정수준 이상의 영어점수(동등자격요구.

 

. 채용 세부내용

응시분야

응시직급 
및 코드

자격요건 및 수행직무

채용

예정인원

기업지원

연구개발
업무

선임연구원
(
응시코드A1)

 학위 및 경력

박사학위 소지자 혹은 석사학위 취득후 연구경력 4

상자로서 단백질 관련 기업 업무 및 사업화업무 경험

 전공분야 : 생명과학및 산업정책 분야

 영어 : 토익 기준 700점 이상 또는 동등 자격자

O

 수행 내용

기업지원 연구개발 총괄 운영

본 센터 관련 기업 육성 지원

본 센터 관련 기업 종합 지원 체계 구축

산학연 연계 협의체 운영

기술사업화 및 투자연계 지원 업무

신규 전략 사업 발굴 및 추진

 우대 사항

관련 정부기관기업체경제 기관단체 등에서 3년 이상 경력자

 급여수준 : (경력에따라 결정년봉 5,000 만원 내외

 채용기간 : 임용일로부터 1

 업무수행 능력 우수자에 한하여 매년 재계약 가능

단백질

공통기술

연구개발

업무

(유전자

클로닝,

단백질

발현)

선임

연구원

(응시코드

A2)

박사후

연구원

(응시

코드

B2)

 학위 및 경력

선임 연구원박사학위후 3년 이상 연구경험자

박사후 연구원박사학위 소지자

 전공분야 : 분자세포생물학생화학단백질체학 등 관련 분야

 영어 : 토익 기준 700점 이상 또는 동등 자격자

O

 수행 내용

재조합 유전자 발현을 위한 벡터 디자인클로닝 및

단백질 발현

조합 유전자와 단백질의 기능 검증 및 메카니즘 규명

유전자 클로닝 및 단백질 발현 관련 공통 기술 개발

단백질 실험실 공통 장비 운용

 우대 사항

고급 클로닝 기술 경험자

FACS NGS 활용 경험자,

 급여수준: (경력에따라 결정)

선임연구원년봉 5,000 만원 내외

박사후연구원년봉 3,600 만원 내외

 채용기간 : 임용일로부터 1

※연구(업무)수행 능력 우수자에 한하여 매년 재계약 가능

단백질

고급정제

재조합기술

연구개발

업무

(단백질 정제정량화)

선임

연구원

(응시코드

A3)

박사후

연구원

(응시

코드

B3)

 학위 및 경력

선임 연구원박사학위후 3년 이상 연구경험자

박사후 연구원박사학위 소지자

 전공분야 : 분자세포생물학생화학단백질체학 등 

관련 분야

 영어 : 토익 기준 700점 이상 또는 동등 자격자

O

 수행 내용

단백질 고급 정제 업무

단백질 발현정제 관련 고급 기술 개발

단백질 생화학적 활성분석

단백질 Q/C 고급 기술 개발

단백질 생화학 실험실 장비 운용

 우대 사항

온적정열량측정장비(ITC), 표면플라즈몬분광기(SPR) 등을 이용한 단백질간의 상호작용 분석 경험질량분석기(MS) 사용 단백질 분석 경험

 급여수준 : (경력에따라 결정)

선임연구원년봉 5,000 만원 내외

박사후연구원년봉 3,600 만원 내외

 채용기간 : 임용일로부터 1

※연구(업무)수행 능력 우수자에 한하여 매년 재계약 가능

슈퍼컴퓨팅을

이용한

단백질디자인

연구개발

업무

선임

연구원

(응시코드

A4)

박사후

연구원

(응시

코드

B4)

 학위 및 경력

선임연구원박사학위후 3년 이상 연구경험자

박사후 연구원박사학위 소지자

 전공분야 : 계산 구조생물학계산 생물물리학

생명 정보학단백질, DNA 등의 계산과학 등 관련 분야

 영어 : 토익 기준 700점 이상 또는 동등 자격자

O

 수행 내용

단백질 구조 슈퍼컴퓨팅 계산열역학적 안정성 계산

단백질-단백질단백질-DNA 상호작용 계산

유전체 및 단백질 정보학

단백질 구조 빅데이터 Classifier  predictor 디자인 등

 우대 사항

단백질 구조 슈퍼컴퓨팅 분자동역학 연구 경험자

단백질 구조 빅데이터 연구 경험자

 급여수준 : (경력에따라 결정)

선임연구원년봉 5,000 만원 내외

박사후연구원년봉 3,600 만원 내외

 채용기간 : 임용일로부터 1

※연구(업무)수행 능력 우수자에 한하여 매년 재계약 가능

 

4. 영어 동등자격자 인정기준

1) 공인어학시험 점수기준

구분

TOEIC

TOEFL

TEPS

G-TELP

IELTS

TOEIC SPEAKING

OPIC

PBT

CBT

IBT

점수

700

553

217

82

577

64(level 2)

6.5

140

IM

 

2) 다음 요건 중 하나를 충족하는 자

 영어를 공용어로 사용하는 국가에서 학위를 취득한 자.

 영어를 공용어로 사용하는 국가에서 1년 이상 연수 또는 근무한 자.

 영어로 논문을 발표한 자 [주저자, Full Paper에 한함]

 

 

5. 채용절차

채용공고

(06.18~07.17)

서류심사

(07 3주차)

면접심사

(07 4주차)

E-mail 접수

(bora5456@dgist.ac.kr)

서류심사위원회 개최

개별 심층면접

지원서 접수

1) 접수방법 : E-mail 접수에 한함(bora5456@dgist.ac.kr)

2) 접수기간 : 2018.06.18. ~ 2018.07.17 (18시까지 도착분에 한함)

3) 기타사항

전형단계별 추진 일정에 따라 합격 여부 개별 통보

상기일정은 기관 사정에 따라 변동될 수 있음

적격자가 없을 경우 채용하지 않을 수 있음

 

 

6. 접수 및 제출서류

제출서류

1)온라인 입사지원시

제출서류 목록 (제출기한 : 공고마감일)

필수 제출서류

· 입사지원서자기소개서연구계획서 (혹은 기업 지원 계획서 1

 연구실적(논문특허 등목록과 논문 첫 페이지특허등록증 사본 제출

 

2)서류심사 합격자

제출서류 목록 (제출기한 : 별도 공지)

필수 제출서류

· 최종학력 졸업(예정증명서 및 전 학년 성적증명서 각 1.

 박사 학위 취득자는 학부 및 대학원 졸업(예정)증명서전 학년 성적증명서를 모두 제출

 추천서 2부 제출 (1부는 박사학위 지도교수의 추천서임.)

· 각 근무기관의 경력증명서 또는 재직증명서

· 외국어 능력시험 성적표

· 자격증 사본

추가 제출가능 서류

· 취업보호대상자 증명서

· 장애인 증명서

 입사지원서 상의 내용과 증빙서류가 상이하거나 관련 증빙서류를 미제출하는 경우 불합격 처리

 응시자 증빙서류 사본의 원본은 최종 합격자 발표 후 접수.

 

 

3) 지원서 제출방법 E-Mail 접수(bora5456@dgist.ac.kr)

제출서류를 순서대로 정리하여 하나의 PDF 파일로 첨부

 

7. 기타사항

 국가보훈대상자 및 장애인은 증빙서류 제출시 관계 법령에 따라 우대

「국가유공자 등 예우 및 지원에 관한 법률」제 31조에 의거하여 가점 부여 대상자에게는 면접전형부터 5% 또는 10%의 해당 가산점 부여

「장애인고용촉진 및 직업재활법」에 따라 장애인에 대해서는 면접전형부터 총점의 5% 가산점 부여

 제출된 서류는 일체 반환하지 않으며본 초빙 외 목적으로는 사용하지 않음

 제출된 서류가 허위로 판명되는 경우 합격을 취소할 수 있으며최종합격자에게는 초빙에 관한 추가 서류를 요청할 수 있음

 지원자는 자격요건지원 분야의 적합여부를 확인한 후 제출 (중복지원 불가능)

 기타 채용에 관한 규정은 본원 규정에 의함

 최종 합격자는 신체검사(공무원에 준함실시

 기타 문의사항 (DGIST 핵심단백질자원센터  053-785-1827)

 


#대구경북과학기술원 채용홈페이지

https://www.dgist.ac.kr/site/dgist/menu/133.do?siteId=dgist&snapshotId=2&cmd=read&contentNo=37303

COREMINE medical (Biomedical database) Start.

BioinformaticsAndMe


노르웨이의 PubGene에서 제공하는 사용하기 쉽고 강력한 Biomedical 검색 엔진을 소개하겠다.

COREMINE Medical은 특정 키워드에 연관된 다양한 정보 (Biology, Drug, Food 등등)를 마이닝하여

입력 키워드를 허브로 하는 네트워크와 잘 정리된 카테고리로 정리해 보여준다.

COREMINE medical

https://www.coremine.com/medical/#search



위 링크를 타면 아래 홈페이지가 나타나고, 예제로 있는 Influenza 를 한번 검색해보자.

Influenza 의 키워드가 들어간 여러 정보들이 검색되었고 가장 많은 Connection이 있는 제일 위에 것을 선택했다.

Connection의 개수는 해당 키워드랑 매칭되는 Biomedical 정보의 개수라 봐도 되겠다.




이야.. 화려해보이는 네트워크와 검색된 정보들이 아래 보인다.

오른쪽 화면은 Influenza 에 관련된 Biomedical 정보들을 카테고리 별로 모아둔 것이고,

(Disease, Drug, Gene, Chemical 에서부터 관련 Expert, Food, Anatomy 등 흥미로운 소재들이 많다)

왼쪽은 앞서 말한 카테고리 중 Influenza와 높은 빈도로 매칭되는 Term 들을 시각화하였다.




Biological process를 살펴보니 'viral release from host cell' 가 가장 높은 스코어로 나왔다.

인플루엔자가 바이러스와 관련이 많구나!



COREMINE은 참 간단하게 다룰 수 있어 편하다.

동시에 Breast cancerBRCA2 를 검색하였다 (검색되는 키워드 갯수는 제한이 없어 보이지만,, 많을수록 검색이 잘 안되겠지..)

유방암과 BRCA2 와 관련된 Drug 들을 살펴보았다.



검색에 다소 힘이 부치는 일반연구자들에게 텍스트 마이닝으로 다져진 'COREMINE 플랫폼' 은 상당히 유용해 보인다.

일반적으로 다루는 Gene, Drug, Pathway 외에 관련된 논문, 전문가, wiki까지?! 다룬다.

가입을하여 로그인을 하면 검색했던 정보들을 어느정도까지 저장할 수 있다.

COREMINE medical 은 데이터의 홍수속에서 생물의학연구자가 새로운

Biomedical Insight 를 얻을 수 있는, 디딤돌이 될 Database라 생각된다.



COREMINE medical (Biomedical database) End.

BioinformaticsAndMe

+ Recent posts