모집기간
 
2018.06.28 01:00 ~ 2018.07.15 23:00
모집분야
조직모집분야상세 내용전공근무지인원
중앙연구소R&D■ 모집분야 
- 방열 소재 및 방열 시스템 관련 연구 
◇ 필수사항 
- 석사/박사 학위 소지 

■ 모집분야 
- 빅데이터 아키텍처 설계 및 구축 
- 빅데이터 분석 인프라 환경구축 
◇ 필수사항 
- 개발 경력 3년이상 
- Java, SQL, Shell 언어 가능 
◇ 우대사항 
- 생물학 분야 시스템 개발 경험 
- NoSQL 기반 설계 및 시스템 적용 
- AWS기반 인프라 구축 경험 
- Hadoop/Spark ecosystem 설계 및 구축 경험 

■ 모집분야 
- 빅데이터 기반 실험실 정보 관리 시스템(LIMS) 개발 
◇ 필수사항 
- 개발 경력 3년이상 
- Java, Javascript, SQL 언어 가능 
◇ 우대사항 
- 생물학 분야 시스템 개발 경험 
- 개발 리더 역할 수행 경험 

■ 모집분야 
- 빅데이터 기반 기계학습 알고리즘 개발 
◇ 필수사항 
- 박사 학위 소지 
◇ 우대사항 
- 생물학 데이터 예측 모델 개발 경험 

■ 모집분야 
- 빅데이터 분석 실험설계 및 통계처리 업무 
◇ 필수사항 
- 석사, 박사 학위 소지 
- SAS, R 능숙 
◇ 우대사항 
- 통계학적 바이오 실험 설계 경력 및 실험 분석 경험 
- 실험 설계와 통계 처리의 조언을 주도적으로 할 수 있음 

■ 모집분야 
- 콩, 옥수수, 형질전환 및 조직배양 
◇ 필수사항 
- 석사, 박사 학위 소지 
◇ 우대사항 
- 콩, 옥수수 형질전환 가능자, 조직배양 능숙 

■ 모집분야 
- 작물보호제 신물질 합성 
- 작물보호제 약효 평가 
- 초충균을 이용한 활성 평가 (온실/포장시험)
기계공학, 재료공학, 컴퓨터공학, Bioinfomatics, 수학, 통계학, 임상통계학, 생물통계학, 정보학, 실험통계학, 유전통계학, 생물학, 식물학, 분자생물학, 식물분자생물학, 화학, 농화학, 식물병리학, 곤충학, 농생물학 및 기타 관련 전공서울특별시 강서구0명
R&D■ 모집분야 
- 세라믹 성형/소결 
◇ 필수사항 
- 석사, 박사 학위 소지 
- 세라믹 프로세싱, 소결체 제작 경험 보유 
◇ 우대사항 
- 경력 3년 이상 

■ 모집분야 
- 광학 측정 장비 개발 
- Hardware Interfacing 
- User Interface 개발 
◇ 필수사항 
- 석사, 박사 학위 소지 
◇ 우대사항 
- 경력 5년 이상 

■ 모집분야 
- 유기합성 및 스케일업 공정 개발 
◇ 필수사항 
- 석사, 박사 학위 소지 
- 의약화학 합성, 작물 보호제 합성, 유기 전자재료 합성, 스케일업 공정 개발 경험 
◇ 우대사항 
- 경력 3년 이상
재료공학, 세라믹공학, 화학, 유기합성, 컴퓨터공학, 물리학 및 기타 관련 전공대전광역시0명
지원 자격 및 절차
지원자격

1) 지원서 작성 시점 기준 관련 경력 
- 학사 : 만 36개월 이상 
- 석사 : 만 12개월 이상 
- 박사 : 경력기간 제한 없음. (단, 졸업 예정자는 지원불가) 
(※ 학위기간(재학) 중의 경력은 기간에 산입하지 않음) 
2) 해외여행에 결격사유가 없는 자, 남성의 경우 군필 혹은 면제자 
3) 보훈대상자는 관련 법규에 의거 우대함.

전형절차
  1. 서류전형
  2.  
  3. 1차면접
  4.  
  5. 2차면접
  6.  
  7. 인적성검사
  8.  
  9. 건강검진
제출방법

1) 본 사이트를 통한 접수만 가능합니다. (우편접수, E-mail 접수 및 방문접수는 받지 않습니다.) 
2) 각 전형결과 및 통보는 E-mail을 통해 진행되오니, E-mail 주소를 정확하게 기재하여 주시기 바랍니다. 
3) 기타 문의사항 발생 시 
- 채용관련문의 : LG화학 대전 인사지원팀 서동준 선임 (dongjunseo@lgchem.com) 
※ 1:1 문의하기는 확인이 늦을 수 있으니 이메일로 문의주시기 바랍니다. 
※ E-mail 및 비밀번호 분실 시 “로그인”에서 이메일주소 및 비밀번호 찾기를 통해 확인 
※ 공고마감일은 지원관련 문의가 많아, 이에 대한 답변 및 대응이 늦어질 수 있습니다. 
등록마감 이후, 추가등록 및 수정이 불가하므로 반드시 등록관련 문의는 마감 3일 전까지 요청완료하여 주시기 바랍니다.

기타사항

1) 허위기재 사실이 발견될 시에는 즉시 불합격 혹은 입사 취소합니다. 
2) 당사의 사업들은 독자적인 기술로 이루어지고 있으며, 채용자들은 입사 후, 당사의 기술과 
업무 매뉴얼을 바탕으로 업무를 하게 되므로 당사는 타 회사의 영업비밀을 필요로 하지 않으며, 
필요한 경우 합법적인 방법과 절차를 통해 취득하여 사용합니다. 
경력 지원자께서는 전 직장의 영업비밀을 침해하는 일이 없도록 각별히 유의하시기 바라며, 
침해 시 본인의 책임임을 주지하여 주시기 바랍니다. 
※ Nate 메일 계정은 간혹 수신이 되지 않는 경우가 있으니 가급적 타 계정으로 ID를 사용 부탁드립니다. 
※ 전형일정(예정) 
- 1차면접 : '18년 8월 초~중순 
- 2차면접 : '18년 8월 중순~말

 


LG화학 채용 홈페이지

http://apply.lg.com/app/job/RetrieveJobNoticesDetail.rpi

Cogena-2 (CoExpression 분석) Start.

BioinformaticsAndMe


Cogena-1 (CoExpression 분석) 에 이어지는 내용이다.


8. Drug enrichment analysis

Cogena 에서는 expression에 따른 클러스터에 관련된 Drug을 매칭해주는 작업을 말한다

# Drug data set

cmapDn100_cogena_result <- clEnrich_one(genecl_result, "pam", "10",

sampleLabel=sampleLabel, annofile=system.file("extdata", "CmapDn100.gmt.xz", package="cogena") )

summary(cmapDn100_cogena_result)


CmapDn100.gmt 을 보면 아래와 같은 테이블 형태이다


9. Drug repositioning

Drug repositioning : 임상에서 실패한 약물 or 시판되는 의약품을 재평가하여 새로운 약효를 찾는 방법

(Drug repositioning 은 깊게 들어가면 끝도 없으므로, 나중에 새로운 칼럼으로 다루겠다..)

heatmapPEI(cmapDn100_cogena_result, "pam", "10",  maintitle="Drug repositioning for Psoriasis")
# cluster 7 기준
heatmapCmap(cmapDn100_cogena_result, "pam", "10",  orderMethod = "7", maintitle="Drug repositioning for Psoriasis")

up expression 되어 있는 Cluster#7을 기준으로 'etoposide' 가 가장 Enrichment한 것이 보인다.

(에토포사이드 항암제로 쓰이는거 맞나?)


10. 클러스터 유전자 뽑기
# 4번 cluster 유전자
# Always make the number as character, please! (숫자에 quote 혹 double quote 해주란 얘기)
geneC <- geneInCluster(clen_res, "pam", "10", "4")
head(geneC)

11. 클러스터 expression matrix 뽑기
# Gene expression profiling with cluster information
# Always make the number as character, please!
gec <- geneExpInCluster(clen_res, "pam", "10")
gec$clusterGeneExp[1:3, 1:4]
gec$label[1:4]

12. Gene correlation 확인
# The gene correlation in a cluster
# Always make the number as character, please!
corInCluster(clen_res, "pam", "10", "10")

음 위에 그림은.. 파란색이 짙고 and 클수록 연결된 유전자 사이의 positive한 상관관계가 높다는 것을 의미한다.

반대로, 지금은 없지만, 빨간색이 짙고 and 클수록 해당 유전자 사이의 negative한 상관관계가 높다.

Correlation analysis에서 항상 명심해야하는 것은 상관관계가 높다고 절대 원인, 결과에 있는게 아니다..

예를 들어, FADS2 유전자 발현이 높은 것이 KRT79의 높은 발현의 원인이라 말할 수없다.

y=ax+b의 형태인 원인, 결과를 하고 싶다면, 회귀분석을 하자!



호호.. 끝났다. 사실 Cogena 툴은 상당히 돌리기 쉬운 축에 속하는 R package이다.
WGCNA 이란 비슷한 패키지도 있다는 것을 알아두자.
마지막으로, 발현 유전자 (DEG)를 분석하는 다양한 방법이 있다. 전체를 다 떄려 넣던지, Up|Down 따로 보던지, Cluster로 보던지...
정답은 없어 보인다. 생물학 연구에서 유전자 발현이란게 조직마다, 연구환경마다 너무나 다르기 때문에
여러 분석을 진행해보면서, 자신의 가설에 가장 적합한 방향으로 스터디를 진행하는 것이 좋을 듯 하다.



Cogena-2 (CoExpression 분석) End.

BioinformaticsAndMe



'R' 카테고리의 다른 글

R, Command line interface Ⅱ  (0) 2018.07.20
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08
Cogena-1 (CoExpression 분석)  (0) 2018.07.05

Expression Atlas (유전자 발현 database) Start.

BioinformaticsAndMe


유전자 발현 데이터베이스는 상당히 많다.

종마다, 조직마다, 실험마다 다양하서 뭘봐야할지 모르겠다 (Human tissue는 GTEx가 잘 정리된편인듯).

자유자재로 GEO와 ArrayExpress 다루는 선생님들은 뭐 걱정이 없으시겠지만,

나같은 초보에게도 쉽게 종마다의 발현 정보를 볼 수 있는 사이트가 있었다.

Expression Atlas

https://www.ebi.ac.uk/gxa/home


와.. single cell expression도 있다.


EMBL-EBI 에서 제공하는 오픈 리소스로 Gene Expression Curation부터 Visualization까지 잘 갖춰져있다.
3000개가 넘는 실험 정보(array, seq)와 40개의 species를 기반으로 하고 있다.
GTEx나 FANTOM5 등의 여러 DB를 통합하면서, 또 친절하게 생물학박사님들이 메뉴얼로 curation 했다고 한다.




#유명한 TP53 와 Lung cancer 발현 정보를 검색해보자.

가운데 Organism은 선택해도 되고, 나는 모든종을 의미하는 'any'로 검색해보겠다.

검색방식은 TP53 and Allspecies and Lung cancer의 교집합 과정이다.


38개의 Expression experiment가 검색되었고 어떤 cell에 발현이 높은지를 색의 농도로 나타내었다.

(사실 Baseline expression은 나는 잘안본다;; 보기 불편해서..)



아래 Deferentially expression 결과를 보자.

처음에 결과를 보고 좀 놀랐던게.. 나는

suppressor인 TP53는 암군인 case가 control에 비해 발현이 떨어져야 한다고 생각했다.

맨위에만 내가 예상한 발현 결과였다.

나니?..


그런데 comparison에 마우스를 대보면 실험에 대한 상세한 내용이 있어서,
구체적인 실험조건을 알고 싶으면 직접 찾아들어가서 보는게 낫겠다.
(예상은 Passage 차이가 있는 걸로 봐서 배양횟수에 따른 비교실험인것 같고,
passage가 높을수록 TP53 발현이 높게 되는 것 같다. 아니면 댓글부탁드려요..)




요즘은 대부분이 RNA-seq을 한다지만, 아직도 array를 통해 expression을 보는 선생님들도 많은 것 같다.
국내사에 분석의뢰를 하면, 그냥 정해진 파이프라인대로만 결과를 줘서 연구자가 downstream 분석하기가 여려운게 사실이다.
분석의뢰한 결과 중에 관심있는 유전자의 발현이
Expression Atlas에서도 유사하게 나온다면

어느정도 믿음을 깔고 더 깊은 분석으로 들어갈 수 있지 않을까?​



Expression Atlas (유전자 발현 database) End.

BioinformaticsAndMe



BWT 알고리즘 Start.

BioinformaticsAndMe


Alignment라는 과정은 Human 분석에서 특히 빡세다..

시퀀싱을 통해서 얻은 길지 않은 리드로 30억 염기서열과 매칭하는 일은 쉽지 않아보인다.

(음. Pacbio나, 요즘핫해보이는? Nanopore는 리드 길이가 길다)


NGS sequence를 alignment하는 tool로  bowtie 와 BWA 가 널리 알려져 있다. 이 tool들이 주력으로 사용하는 알고리즘은 Burrows-Wheeler Transform이다. 30억 염기서열 중에 ACGTACGTACGT를 align하기 위해서 모든 sequence를 처음부터 검색하면 시간이 매우 오래 걸린다. 이를 해결하기 위해서 사용한 알고리즘이 BWT이다.


BWT(Burrows-Wheeler Transform)

마이클 버로우즈와 데이비드 휠러가 1994년에 발표한 블록 정렬 알고리즘으로 변환 결과에 Index 정보가 포함되어 있어, 다른 정보가 없더라도 변환된 문자열의 경우 유사한 문자열들끼리 뭉쳐진 형태로 나타나는 경우가 많아 압축을 위한 전처리 알고리즘으로 사용된다.


#BWT 과정을 이해해보자.

1. 변환하고자 하는 문자열 ( BANANA )의 맨 마지막에 단어의 끝을 알리는 토큰을 넣는다 ( ex. BANANA$ ).

2. 토큰을 넣은 문자열을 왼쪽으로 한 칸씩 Cyclic Shift를 수행하며 행렬을 생성한다.

3. 생성된 행렬의 각 행을 사전 순으로 Sorting 한다 ($ 토큰은 맨 마지막 순서). 이때 정렬된 형태의 행렬을 BW행렬이라고 한다.

4. 정렬된 행렬의 맨 마지막 열의 문자들로 생성된 문자열이 변화된 결과이다.


#그래서 BWT 특징이 뭐야

Ⅰ. 같은 single nucleotide끼리 붙어있는 경우의 수 증가

transform 전과 후의 문자열 길이는 사실 변함은 없다. 따라서 직접적으로 압축을 수행하는 알고리즘이 아니다. 하지만 input 안에서 중복되는 문자열이 많을수록 single character가 반복되는 경우가 생기기 때문에 압축하기가 매우 용이해진다.
특히 DNA, RNA sequence는 문자열이 A, C, G, T, U 정도밖에 없기 때문에 BWT로 transform 할 경우, 반복되는 문자가 굉장히 많아진다.
예를 들어, 다음의 문자열의 경우 단 하나도 연속되는 single nucleotide가 없는 input이다.
ACGTGCAGTCGATGCGATCGATGCTGACTGATGCAGCTGACTG
하지만 위의 sequence를 Burrow-Wheller Transform으로 변환하면 다음과 같다.
GGGCCGGGGGGGTTAAGGATTTCTCCTTTATACGACCCCAGAA


Ⅱ. 문자의 순서가 유지




#BWT를 이용한 문자열 매칭

-원래 문자열은 $를 제외한 row의 수와 일치하므로 6개의 글자로 이루어진 단어임을 알 수 있음.

-문자의 순서 유지.






-First column은 last column의 뒤에 있었던 문자.

-$는 원래 문자의 맨 마지막에 붙어 있었음. 따라서 A가 맨 마지막 글자임을 알 수 있음.


-알아낸 문자열 : A$










-Last column과 First column의 문자의 순서는 동일함.

-A0의 앞에는 N0임을 알 수 있음.


-알아낸 문자열 : NA$











-L은 F앞의 문자임.

-$는 원본이 아니기 때문에 역변환 종료.

-알아낸 문자열 : BANANA$







#Bowtie (FM-Index)

Bowtie 알고리즘인 FM-Index는 BWT 행렬의 Last First mapping 법칙을 이용하여 문자열 Index를 만든 방법으로 문자열에 대해 BWT를 수행함으로써 얻어짐.

-참고 : Bowtie의 불일치 정합은 그리디(greedy) 알고리즘 형태의 백트래킹(backtracking)을 통해 수행되는데, 이 때 허용되는 에러는 치환 (substitution) 뿐이다. (내가 보고싶은게 InDel variant인데 bowtie를 쓴다면? 써도되겠지만 나는 안쓸란다)


#BWA (BWT + Suffix array)

BWA는 BWT와 접미사 배열(Suffix array)을 이용하여 정렬을 수행하는 알고리즘.

-참고 : BWA MEM 이 성능이 좋다고 평가되어 Alignment 과정에서 가장 빈번하게 사용된다 (빠르고, 정확). 옵션 중에 지금 기억이 안나는데, 특정 파라미터를 조절하면 (불일치스코어 매기는거였나) InDel 찾는 성능이 좋아진다. (읽었던 파라미터 비교 관련 논문을 본 것같은데 확인하고 내용 보완해야겠다ㅜ)



마무리..
BWT 알고리즘 말고도, HASH 기반에 MAQ, STAMPY 같은 알고리즘이 있다는 것을 참고하고 공부해보자 (나중에..)
해시기반이 상대적으로 정확하다고는 하나, 우리가 주로 분석하는 30억 reference를 생각해보면,
또 몇개 샘플 단위가 아니라 몇십, 몇백 샘플을 분석한다면,
정확도가 조금 떨어지지만, 엄청 빠른 매핑할 수 있는 BWT 알고리즘이 있다는 것을 기억해두자.




BWT 알고리즘 End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[GWAS] Imputation  (2) 2018.07.09

Cogena-1 (CoExpression 분석) Start.

BioinformaticsAndMe



array 분석을 하다보면, 때로 수많은 DEG(Deferentially Expressed Gene) 형님들을 만나게 된다.

몇 천..?개는 다른 보정이 필요하겠고, 사실 몇 백개라도 골치 아프다.

아.. 수많은 DEG가지고 DAVID 돌려버리면 뭔가 두리뭉실한 기작만 나온다. GG



이럴때 나는

'Co-Expression 분석' 을 한다.


뭐 여러 정의가 있겠지만

간단히 말해서 유전자 발현(up, down) 양상이 비슷한 것 끼리 분석합시다.. 라고 나는 정의하겠다.

다시말해, 수많은 DEG들을 비슷한 발현양상을 갖는 그룹으로 클러스터링하여, 클러스터링된 DEG들의 기작을 살펴보는 것이다.

이것을 쉽게하기 위한 아래 R package를 추천한다.


'Cogena'

Co-expressed gene-set enrichment analysis 



논문에 나와있는 위 그림이 Cogena 를 단번에 설명해준다.

1. DEG 나옴.

2. 발현에따라 클러스터링 해줌 (클러스터링방법은많다).

3. 클러스터링 된 그룹에 무슨 Drug, Pathway가 Enrichment(빵빵)한지 분석을 해줌.




#############################################################################

BioinformaticsAndMe script

#############################################################################

1. cogena 패키지 설치

source("https://bioconductor.org/biocLite.R")

biocLite("cogena")

library(cogena)

# 예제(건선) 데이터 로딩

data(Psoriasis)

# 데이터 확인

ls()


2. Input data

# expression file

dim(DEexprs)

View(DEexprs)

# annotation file

sampleLabel

str(sampleLabel)

table(sampleLabel)


3. Pathway 데이터 로딩

# KEGG Pathway gene set

annoGMT <- "c2.cp.kegg.v5.0.symbols.gmt.xz“

# annotation 경로 지정

annofile <- system.file("extdata", annoGMT, package="cogena")

# GO 분석을 하고 싶다면,

# GO biological process gene set

# annoGMT <- "c5.bp.v5.0.symbols.gmt.xz"

아래표는 Cogena 가 가진 Annotation set이다. 잘 정리했군..


4. 파라미터 지정 (몇개 클러스터로 할건지, 무슨 clustering method를 쓸건지 등등)

# the number of clusters. It can be a vector.

# nClust <- 2:20

nClust <- 10

# Making factor "ct" , "Psoriasis"

sampleLabel <- factor(sampleLabel, levels=c("ct", "Psoriasis"))

# the clustering methods

# clMethods <- ("hierarchical","kmeans","diana","fanny","som","model",

# "sota","pam","clara","agnes") # All the methods can be used together.

clMethods <- c("hierarchical","pam")

# the distance metric

metric <- "correlation“

# the agglomeration method used for hierarchical clustering

method <- "complete"


5. Co-expression Analysis 시작

genecl_result <- coExp(DEexprs, nClust=nClust, clMethods=clMethods,

                       metric=metric, method=method)

summary(genecl_result)

# Enrichment (Pathway) analysis for the co-expressed genes

clen_res <- clEnrich(genecl_result, annofile=annofile, sampleLabel=sampleLabel)

summary(clen_res)


6. 클러스터링 결과 Heatmap 확인

# pam 클러스터링을 통해 10개의 클러스터 제작

# Always make the number as character, please!

# heatmap 그리기

heatmapCluster(clen_res, "pam", "10", maintitle="Psoriasis")



크... 일단 이쁘다.. 10개의 클러스티렁, up|down DEG, two샘플 그룹으로 heatmap이 만들어진다.

아! Pathway 봐야지!





7. 클러스터 Pathway 확인

# The enrichment score for 10 clusters, together with Down-regulated,Up-regulated and All DE genes.

heatmapPEI(clen_res, "pam", "10", maintitle="Pathway analysis for Psoriasis")

유전자 클러스터마다 어떤 pathway가 enrichment한지 보인다 (물론, 전체 only up, only down 도 볼 수있다).

옵션 조정해주면 특정 클러스터의 score 내림차순 기준으로 그림을 다시그려준다. 클러스터9 를 기준으로 다시그려보았다.




그림 왜이렇게 커...;;

Cogena-2 (CoExpression 분석) 에서 이어서 살펴보자.




Cogena-1 (CoExpression 분석) End.

BioinformaticsAndMe


'R' 카테고리의 다른 글

R, Command line interface Ⅱ  (0) 2018.07.20
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14
Permutation test (순열검정법)  (7) 2018.07.08
Cogena-2 (CoExpression 분석)  (0) 2018.07.06

+ Recent posts