Location :

South Korea - Seoul


Job Description 

Field Bioinformatics Specialist 
Based in Seoul, Korea 

Thermo Fisher Scientific seeks a talented Bioinformatics Specialist to join a multidisciplinary team. This role is equally focused on the following:
  • Driving excellence in customer applications & technical support for both the pre-sales process and post-sales installation, training and troubleshooting
  • In-person and remote interaction with customers, field sales, sales managers, marketing and technical support staff
  • Working closely with customers to identify market opportunities through development and commercialization of new applications on systems
Key Responsibilities:
  • Provide technical informatics support for Thermo Fisher NGS hardware and software products and services by answering customer technical inquiries in a timely manner. Inquiries will be received via email, phone, or during customer visits.
  • Provide complete customer support on technical issues by utilizing all available resources. Escalates issues or problems when warranted.
  • Demonstrate proficiency in using all required computer systems and databases.
  • Record and manage customer complaints on technical and quality issues. Troubleshoot and advise on solutions to problems as required. Participates in analyzing complaint information to assist in complaint trending, and identification of potential quality issues.
  • Form a close relationship with the bioinformatics support team.
  • Deliver training to customers
  • Participate in training, both new product and continuing education to remain at the edge of scientific knowledge.
  • Contribute to departmental and team meetings.
  • Perform duties independently with only limited direction given. Job encounters recurring work situations with occasional variations from the norm, involving a moderate to high degree of complexity. Decisions are made within policy constraints. Occasionally, situations may warrant action outside of company guidelines, in which case representative is encouraged to share solution with Team Leader prior to action.
  • Erroneous decisions may lead to customer dissatisfaction and/or increased costs for the company. Normally receives little instruction on routine work, general instructions on new assignments.
  • May be required to perform other related duties as required and/or assigned.
Minimum Requirements/Qualifications:
  • Requires a M.Sc. in bioinformatics or related field. A Ph.D. or equivalent experience is preferred.
  • Strong system-level debugging and IT problem solving/trouble-shooting skills required.
  • Familiarity with data backup solutions, data migration, and disaster recovery and network security preferred.
  • Experience with Network TCP/IP, Firewalls, Active Directory, etc. a must.
  • Must possess strong analytical, organizational, written and oral communicative skills
Experience desired:
  • Possesses experience in two or more of the following fields: NGS sequencing analysis, genomics, genetics, gene expression analysis, sequence assembly, molecular biology and high content data and images.
  • In depth knowledge of bioinformatics software, resources and algorithms.
  • Experience of working in a Windows and LINUX/UNIX environment is essential
  • Familiarity with building and querying databases.
  • Experience with installation and configuration of hardware + software application / database products, specifically Oracle and/or SQL is required.
  • IT knowledge and basic system administration skills are required.
  • Working knowledge of scripting in a language such as PERL, Python or Java.
  • Knowledge of statistics for gene expression would be an advantage.
  • Proven ability to quickly learn large amounts of new, complex technical information required.
  • Demonstrated ability to effectively communicate, both orally and in writing, to customers and colleagues is required.
  • Ability to manage multiple priorities required.
  • Prior experience in customer service is preferred.
  • Must be able to travel up to 50% of the time to meet customer demands.



#써모피셔코리아 채용홈페이지

http://jobs.thermofisher.com/ShowJob/Id/242042/Field%20Bioinformatics%20Scientist

Amazon & PillPack (아마존, 온라인 약국 필팩 인수) Start.

BioinformaticsAndMe




헬스케어 산업으로 막대한 자본을 쏟아붓던 Amazon이 드디어 사고를 쳤다.

미국의 온라인 약품 배송 업체인 'PillPack'을 10억 달러(약 1조2000억)로 인수해버린 것이다!

아마존이 미국의 제약 시장 장악에 대한 야심을 여과없이 보여줬다 (아마.. 큰그림은 전세계로..).

이 소식을 접한 관련 매체들은 일제히 제약산업의 지각변동을 알렸다.


실제로 미국 증시의 지각이 흔들렸다.

미국의 오프라인 약국 업체들이 전 거래일 크게하락한 것이다.

• Walgreens Boots Alliance : -9.9%

• CVS Health : -6.1%

• RiteAid : -10.7%



우리나라엔 생소한 개념인 온라인 약국 업체인

필팩(PillPack)은?

 -매일 약을 복용 해야 하는 환자 (당뇨 등)들을 위한 처방약을 가정으로 배달해주는 의약품 유통 업체.

 -처방에 따라, 환자가 복용해야하는 정확한 양을 정시에 배달하는 서비스 보유.

 -필팩은 미국 49개주의 유통면허를 보유한 Mail-Order Pharmacy.

 -2017년 4,000명의 환자가 이용하여 10억이 넘는 매출을 기록한 중견약국체인.


또한, 필팩의 뛰어난 점은 위에서 언급한 대부분의 Mail-Order Pharmacy는 약통 채로 배송되나,

필팩의 경우 위에 사진처럼 정해진 시간에 1회 복용량으로 소분하여 제공한다는 사실이다.



#Amazon이 PillPack을 인수하면서 얻을 가치를 살펴보자.

1. PillPack은 이미 미국 전역의 49 개 주를 가졌다.

-아마존은 이미 차려진 밥상에 진입했으며, 이를 기반으로 온라인 의약품 유통 체인을 세계로 확장할 것이다.

2. 노년층을 사로 잡는다.

-현재 아마존의 주고객층은 18~34세이지만, 의약품의 최대 소비자인 노년층을 새로운 고객으로 확보하여 다른 비즈니스를 접목 가능하다.

3. 안정적인 수익

-배송되는 의약품 자체가 만성질환환자와 같이 반복적으로 소모되는 것이기에 안정적인 수익을 올릴 수 있다.

4. 비즈니스 Add-ON

-아마존이 이미 보유하고 있는 대규모 인프라를 통해 다양한 비즈니스 상품을 접목할 수 있다 (진짜 아마존이네.. 생태계..)



마무리하며..

아마존과 필팩의 양사간 인수 합의는 끝났으며, 규제기관 승인 후 올해 하반기에 마무리 될것으로 보고있다.

사실, 온라인 의약품 배송 서비스 자체가 우리나라에 매우 생소하기도하고.. 아무튼 재밌다.

아마존이 이름 그대로, 그들의 Amazon Ecosystem 을 크게크게 구축하고 있는 상황에서

구글, 애플, 월마트 등의 굵직한 라이벌들은 어떠한 행보를 보일지 (사실 이미 그들도 진행중..) 귀추가 주목된다. 




Amazon & PillPack (아마존, 온라인 약국 필팩 인수) End.

BioinformaticsAndMe


참고 : 제가 생물정보학 관련 부분만 발췌했습니다


모집부문

 

모집부문

구분

담당업무

자격요건 및 우대사항

서비스 개발
(
개인유전체사업)

신입
/
경력

- 서비스 분석지, 교육자료, 홍보물 등
 
서비스 전반에 필요한 콘텐츠 작성(main)
 
포함한 서비스 기획 및 개발업무

[자격요건]
- GWAS
논문 및 유전학 관련 논문에 대한 해석
 
Re-writing이 가능한 자
-
경력 2년 이상 (또는 신입이어도 능력이
 
검증되면 지원 가능)
-
생물학, 유전학, 영양학 등 질병 및 유전학에
 
대한 기본 개념이 있는 자

[
우대사항]
- SNP
기반의 개인 유전자 분석 서비스에 대한 
 
기획 및 개발 유경험자 우대
-
소비자 친화적인 콘텐츠 작성에 자신 있거나
 
의욕이 있는 사람
-
풍부한 아이디어 및 소비자 시장에 대한 이해가
 
있는 사람 우대
-
타인과 소통하며 능력과 열정을 갖고 자기
 
일에 책임감이 강한 사람
-
고객의 소리에 귀 기울일 수 있는 오픈
 
마인드의 사람

데이터분석

신입
/
경력

- NGS Raw data 처리 및 Quality Control
- NGS
분석
- Microarray
분석
- Omics
분석

[자격요건]
-
학사학위 이상 소지자
-
프로그래밍(Shell, python, R, perl, java)가능자
-
생명정보학, 생물/보건 통계학 전공자
 
또는 BI에 관심 있는 자

[
우대사항]
-
직무관련 지식 보유 및 프로젝트 진행 경험자
- NGS
데이터 또는 Biochip 데이터분석 경험자
- Open source
기반 프로그램 설치/사용 경험자

빅데이터부

신입
/
경력

- 빅데이터 플랫폼 개발 
 
ㆍ데이터통합 SW
 
ㆍ초고속데이터처리
 
ㆍ인메모리분산NoSQL
 
Data Lake & Super Datawarehou

[자격요건]
-
학사 이상 소지자
- Unix/Linux
환경에서의 프로그래밍   
  (C/Java/Python/Node.js
) 개발이 가능한 자
-
웹어플리케이션 개발 가능자

[
우대사항]
-
네트워크/멀티스레드/멀티프로세스 등의
 
기벌을 활용한 개발 경험자
- DBMS
연동 소프트웨어 개발이 가능한자
- Hadoop Eco System, Apache Spark, NoSQL
 
사용 경험자
-
분산 데이터 처리 환경에 대한 개발 경험자 
-
데이터 저장 알고리즘 및 데이터베이스
 
관련 개발 경험자

※ 국가보훈대상자 및 장애인은 관련법령에 의거하여 우대합니다

 

입사자 처우

 

- 근무형태 : 정규직(신입사원의 경우 내규에 따라 수습기간 부여)
-
급여 : 회사내규에 따름

 

복리후생

 

- 연금·보험 : 국민연금, 건강보험, 고용 및 산재보험
-
휴무·휴가 : 5일근무, 경조휴가, 연차휴가 등
-
보상제도 : 인센티브제, 우리사주조합운영, 생활운영자금대출
-
기타 : 복지수당지급, 사내동호회운영, 사내휴게실운영, Family-day운영 外

 

전형절차

 

- 1 : 서류전형(합격자에 한해 개별통보)
- 2
: 인·적성검사
- 3
: 면접전형(임원면접은 1, 2차로 진행될 수 있음)
  
서비스개발/데이터분석/빅데이터부 부문은 PT면접 또는 실기면접으로 진행될 수 있음
  *
임원 면접 합격자 채용검진 실시

 

제출서류

 

- 신입 : 입사지원서, 자기소개서경험소개서(* 해당 입사지원서 1, 2 page 작성안내 참고)
-
경력 : 입사지원서, 자기소개서경력소개서(* 해당 입사지원서 1, 2 page 작성안내 참고)

 

접수방법 및 기간

 

- 접수방법www.macrogen.com에 접속하여 당사양식(입사지원서) 다운로드 후 작성 또는 자유양식(워드나 한글파일)
                
이용하여 작성 후 이메일 접수 및 자사양식으로 사람인 온라인 입사지원
                 *
이메일(*****@************)접수 시 파일제목에 지원부문 및 성명 표기
                   [
 : NGS기술영업(국내)부문_홍길동]
-
접수기간2018. 7. 2 ~ 2018. 7. 15

 


[GWAS] Imputation Start.

BioinformaticsAndMe

Imputation 은 GWAS 분석에서 자주 사용되는 개념이다.
Imputation 이란?
유전학에서의 Imputation는 관찰되지 않은 Genotype을 통계적 기법에 의해 추론해내는 것
으로 이해하면 되겠다.
그렇다면 왜 GWAS에서 Imputation이 필요하느냐?
대부분의 SNP Chip 들이 50~100만개 정도의 probe를 가지고 있고, 이 숫자는
30억 염기를 가지고 있는 사람에게 턱없이 적은 숫자이다 (1.5%정도인 Exon 영역만 고려하여도 아주 적다).
하지만 염색체는 단일 염기보다 블록 단위의 형태로 유전이 되는 Linkage Disequilibrium(LD, 연관비평형)의 특징을 갖고 있기 때문에,



적절한 reference만 존재한다면, GWAS 결과의 halpotype을 유추할 수 있다.
사실, LD 나 Hapotype 에 대해 깊게 들어가면 칼럼이 길어지므로 다음번에 구체적으로 다루기로 하며,
간단히 정리하자면, SNP chip calling 결과에서 non-SNP(아예 probe 정보가 chip에 없었던) position의 allele을 유추할 수 있다.
아래 그림을 보면 이해하기가 쉽겠다. 

#Impuation을 하는 목적을 가볍게 정리해보면,
1. SNP chip calling을 했는데 missing value가 너무 많다.
2. 위에서 말한 것처럼 보고싶은 영역을 확대하고 싶다.
3. Imputation을 통해 N 수를 늘려서 통계 파워를 높이고 싶다.
4. 다른 스터디와 합쳐서 분석해보고 싶다 (Meta analysis).
등이 되겠다.
참고로..
아래 그림은 Plos one 논문으로, SNP chip 간의 공유하는 SNP들을 테이블 형태로 나타내었다.

Meta 분석을 하는데, Chip 사이의 공유하는 SNP이 거의 없다면... Imputation에서 상당한 스킬?이  필요하지 싶다.

#Imputation의 과정은 크게 2가지로 나뉜다.
(물론 아래 2가지를 한번의 command로 실행할 수 있지만 run time이 굉장히 길다)
1. Phasing
- 해당 서열이 부모 중 누구에게서 물려 받은건지 구분하는 작업 (부모 haplotype 정보가 있으면 매우 유리하지만, 없을 때 추정하는 알고리즘 존재).
- SHAPEIT2 추천
2. Imputation
- Pre-Phasing이 끝나고 Imputation이 과정을 수행 (여러 통계적 기법이 존재).
- IMPUTE2 추천
위에서 추천한 툴들은 일반적으로 많이 사용되는 것으로 기호에 따라 다양한 툴을 사용해도 좋다.
예를 들어, IMPUTE보단 정확도가 다소 떨어지지만, 빠른 속도를 위해 BEAGLE을 사용할 수도 있다.
사실 Imputation 과정이 본인이 생각하기에 어려운 분석 중 하나라 생각되며..
스크립트를 효율적으로 구성하지 못하면 굉장한 run time이 발생한다 (Imputation 자체가 오래 걸림).
아는 선생님께서는 한달이 걸렸다고 한다..



마무리하며..

Imputation 과정에서 가장 신경써야할 부분 중 하나는 '어떤 Reference를 사용할 것인가?' 이다.

일반적으로 HAPMAP과 1000G이 사용되고 있으며, 그나마 1000G에 중국과 일본의 population이 들어가 있어,

한국인 GWAS 분석에서 적합한 reference라 볼 수 있겠다.

그러나,, 한국인 GWAS 분석에서 'Korean reference'를 사용해야하는 건 아주 당연하다.

질병관리본부에서 'KRGDB(Korean Reference Genome) project'로 한국인으로 구성된 ref가 있다.

(http://152.99.75.168/KRGDB/menuPages/intro.jsp) - raw 데이터 사용하려면 따로 신청해야 하는듯..

끝.



[GWAS] Imputation End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[NGS Alignment] BWT 알고리즘  (0) 2018.07.06

[CNV] ONCOCNV Start.

BioinformaticsAndMe


ONCOCNV - a package to detect copy number changes in Deep Sequencing data


ONCOCNV 는 Amplicon sequencing 플랫폼에서 Copy Number Variation 찾기에 특화된 Tool로

OncoDna(벨기에)와 Bioinformatics Laboratory of Institut Curie (프랑스)의 협력으로 개발되었다.


최근 암 진단 검사에서 Customized Targeted Sequencing 에 Ampliseq을 사용하는 경우가 많이 늘었는데,

여러 이유가 있겠지만, 변이 검출의 높은 정확성과 빠른 실험 TAT(Turn A Round)가 장점일 듯 하다.


OncoDNA(벨기에)는 유럽쪽에는 꽤 유명한 암진단전문기업으로,

ONCOCNV 개발에 자사에 CNV 검출 방법을 많이 녹아내지 않았을까?.. 하는 추측을 해본다.

(OncoDNA는 또한 Liquid Biopsy 에서 힘좀 쓴다는 기업으로 알려져 있으므로, 관련 내용을 다음 칼럼에서 좀 더 살펴보도록 하겠다)



#ONCOCNV 다운 및 설치

http://boevalab.com/ONCOCNV/


#ONCOCNV 특징

-Ampliseq 데이터에서 large CNA를 감지할 수 있는 Multi-factor normalization 및 Annotation 기법을 보유.

-CGH(Comparative Genomic Hybridization)에 상응하는 높은 CNA 검출 정확도.

-따라서, Ampliseq하고 ONCOCNV 돌리면, CGH 또는 SNP array 실험할 필요가 없음.

위에는 ONCOCNV의 전체 파이프라인 이다. 간단하게 설명하면,

1. 샘플들의 Library size, GC content들을 표준화시켜놓고,

2. Control만 가지고 Reference에 해당하는 baseline construction 작업을 수행한다.

-ONCOCNV에서는 Reference 만드는 Control 샘플을 최소 3개 이상 권하고 있지만, 툴을 돌려보면 2개만 있어도 작동은 된다.

-Control 샘플은 많으면 많을수록 타겟 질환희 CNA 검출 정확도가 높아진다.

3. 만들어진 Reference를 기반으로 Tumor 샘플의 CNA가 있는지 통계 기법으로 확인하고,

4. 여러 보정 작업을 끝낸 최종 CNA를 시각화 하는 것으로 마무리.


ONCOCNV input은 BAM 파일이 사용되기 떄문에 돌리는 것 자체는 리눅스 환경에서 크게 어렵지 않다.

샘플 크기에 따라 다르겠지만, 상대적으로 Reference construction하는 과정이 시간이 좀 걸린다.



마무리하며..

ONCOCNV에서도 말한 것처럼, 이 툴의 큰 장점은 Amplicon sequencing에 큰 장점이 있다는 것이다.

다른 CNV 툴들은 Amplicon 단위가 아니라 엑손 단위로 묶어서 CNV를 계산해 버리기 때문에, Ampliseq으로 CNV 보는게 부적절할 수 있다.

아직까지는 많은 사람들이 사용하는 툴은 아니라 생각되지만, 진단검사와 Ampliseq 분석이 흔해질수록,

그 강점이 빛나는 CNV detection tool 이 되지 않을까? 라는 생각이 든다.


ONCOCNV 논문

https://academic.oup.com/bioinformatics/article/30/24/3443/2422154




[CNV] ONCOCNV End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Cytoscape] GeneMANIA 1  (0) 2018.07.22
[Driver Annotation] iCAGES  (0) 2018.07.13

[Pachyderm] Splitting Data for Distributed Processing (분산처리) Start.

BioinformaticsAndMe





Splitting Data for Distributed Processing (분산처리)




Pachyderm을 사용하면 보유한 데이터를 여러 개의 'datums' 로 나누어 병렬 처리를 할 수 ​​있다.

단일 파일로 Pachyderm에 commit해야하는 데이터 세트인 경우,

Pachyderm은 분산 컴퓨팅을 위한 데이터 세트를 자동으로 분리하는 방법을 제공한다.


유저 정보로 이루어진 데이터 셋을 예로 들어보자.

CSV format의 단일 파일로 한 줄당 하나의 record가 담겨 있다.

user_data.csv

$ head user_data.csv
1,cyukhtin0@stumbleupon.com,144.155.176.12
2,csisneros1@over-blog.com,26.119.26.5
3,jeye2@instagram.com,13.165.230.106
4,rnollet3@hexun.com,58.52.147.83
5,bposkitt4@irs.gov,51.247.120.167
6,vvenmore5@hubpages.com,161.189.245.212
7,lcoyte6@ask.com,56.13.147.134
8,atuke7@psu.edu,78.178.247.163
9,nmorrell8@howstuffworks.com,28.172.10.170
10,afynn9@google.com.au,166.14.112.65


위 파일을 Pachyderm에 하나의 파일로 저장하면, 유저 record 각각을 별도의 "데이텀"으로 병렬 처리 할 수 ​​없다.

물론, 이러한 유저 record를 commit하기 전에 수동으로 개별 파일로 분리 할 수 ​​있지만, Pachyderm은 훨씬 쉬운 방법을 갖고 있다.


put-file API에는 파일을 별도의 데이텀으로 자동 분할하는 옵션이 있다. put-file--split 옵션을 사용해보자.

예를 들어, 아래는 user_data.csv 파일을 각 행의 개별 데이텀으로 자동 분할하는 command이다.

$ pachctl put-file users master -c -f user_data.csv --split line --target-file-datums 1

--split line : Pachyderm이 파일을 line에 따라 분리하도록 지정

--target-file-datums : 각 결과 파일이 최대 하나의 'datum'(one line)을 포함하도록 지정.


참고로, Pachyderm은 ​repo에서 user_data.csv를 여전히 ​하나의 entity로 표시한다.

$ pachctl list-file users master
NAME                 TYPE                SIZE                
user_data.csv   dir                 5.346 KiB


그러나 위 entity는 현재 모든 분할 record를 포함하는 디렉토리다.

$ pachctl list-file users master user_data.csv
NAME                             TYPE                SIZE                
user_data.csv/0000000000000000   file                43 B                
user_data.csv/0000000000000001   file                39 B                
user_data.csv/0000000000000002   file                37 B                
user_data.csv/0000000000000003   file                34 B                
user_data.csv/0000000000000004   file                35 B                
user_data.csv/0000000000000005   file                41 B                
user_data.csv/0000000000000006   file                32 B
etc...


/user_data.csv/*의 glob 패턴을 사용하여 repo 유저를 입력으로 사용하는 파이프 라인을 통해,

각 유저 record (즉, CSV의 각 행)를 병렬로 처리할 수 있다.


현재 Pachyderm은 라인이나 JSON blob에서 이러한 유형의 분할을 지원한다.


# Split a json file on json blobs, putting
# each json blob into it's own file.
$ pachctl put-file users master -c -f user_data.json --split json --target-file-datums 1

# Split a json file on json blobs, putting
# 3 json blobs into each split file.
$ pachctl put-file users master -c -f user_data.json --split json --target-file-datums 3

# Split a file on lines, putting each 100 
# bytes chunk into the split files.
$ pachctl put-file users master -c -f user_data.txt --split line --target-file-bytes 100




#Reference

https://medium.com/pachyderm-data/bioinformatics-with-pachyderm-shell-scripts-at-scale-ae1cce672b83




[Pachyderm] Splitting Data for Distributed Processing (분산처리) End.

BioinformaticsAndMe

'Program' 카테고리의 다른 글

Jupyter notebook (주피터 노트북)  (0) 2019.11.14
[Kubernetes] 쿠버네티스 소개  (0) 2019.10.18
API 기초 학습  (0) 2019.09.26
Docker 설치  (0) 2018.09.03
Docker 시작하기  (1) 2018.07.17

+ Recent posts