Metastasis (암전이) Start

BioinformaticsAndMe

 

 

 

1. Metastasis (암전이)

원발성 암 (primary tumor site) 부위에서 암세포들이 혈액, 림프를 타고 멀리 떨어진 곳으로 암이 전이가 일어나는 것을 의미한다.

쉽게 말해, 암이 내 몸 다른 곳으로 옮겨졌다는 얘기며, 암에 걸린 사람들 중

90%가 Metastasis (암전이)에 의해 사망한다고 한다..

Metastasis 자체가 아직까지 확실한 메카니즘이 밝혀진 것이 아니기에 쉽게 예측이 안될 뿐더러, 한 번 전이되면

치료하기 매우 어려운 형태로 나타나기, 우리에게 매우 위협적인 생물학 mechanism이 되겠다. 

 

 

 

2. Metastasis 과정

-암세포 전이에는 이를 조절하는 Transcription factor가 중요한 역할을 한다고 알려져있다.

-이 전사인자 활성에 의해 EMT (epithelial-mesenchymal transition) 라는 프로그램이 진행된다.

-EMT : 세포간의 강력한 결합을 가지는 표피세포 (epithelial cell) 가 움직이기 쉬운 중간엽세포 (mesenchymal cell) 로 전환되는 과정.

-결국, 말랑말랑해진 암세포는 혈관과 림프구를 통해 이동하여 다른 조직에 도달하게 되면 EMT의 역과정인 MET (mesenchymal-epithelial transition)가 발생.

-MET : 중간엽세포가 다시 강력한 결합을 가지는 표피세포로 전환되고 고착되는 과정 (전이완성).

 

이해하는 건 아래 그림이 더 쉬어 보인다.

 

3. Metastasis 의 방향성

암전이를 공부하면서 느낀 것은 특정 암에 걸렸을 때, 암에 따른 전이의 경향성? 방향성이 있을까 하는 것이었다.

무슨 암에 걸리면 어느 암에 전이가 쉬운지.. 물론 지금까지 많은 연구들을 통해 임상 의사들의 조언을 받을 수 있지만,

역시나 복잡한 Metastasis의 기작때문에 단언할 수 없을 것이다 (관련 데이터베이스도 거의 없어 보인다..)

그래도 자료를 좀 찾아보니 삼성서울병원에서 1995∼2007년 이 병원에서 치료를 받은 위암, 간암, 폐암, 유방암, 자궁경부암, 대장암, 전립샘암 등 

국내에서 발생빈도가 높은 7대 암 환자 8만7122명을 분석해 암이 어떤 장기와 조직으로 전이되는지를 보여 주는

‘암 전이지도’ 를 만들었더라.

 

예를 들어,  간암에 걸렸다면 폐로 전이되는 확률이 가장 높았다. 라고 해석하면 되겠다.

 

4. Metastasis Suppressor Genes

고무적인 사실을 그동안의 연구를 통해 암전이를 늦추거나 억제하는 유전자들을 일부 찾아냈다는 사실이다.

공부를 더 해봐야겠지만, 암 자체를 억제하는 유전자들과 암 전이를 억제하는 유전자들의 공통점이 별로 없다고 한다.

비슷해보이지만 다른 기작을 가질 것이라 예상되며, 몇몇 Metastasis Suppressor Genes 들이 알려져 있다.

NM23, MKK4, KAI1, BRMS1, KISS1, RHoGD12, CRSP3, VDUP1, KLF17, GAS1, SNED1, FLNC

 

#Metastasis 기작 관련 논문 내용도 찾아보았다

ㄱ) As the invasive site are distinct from the site of primary tumor origin, the cellular micro-environments are also changed: e.g., O2 concentration, pH value, cytokines, growth factors, chemokines, etc.

Hurst D. R. & Welch D. R. Metastasis suppressor genes at the interface between the environment and tumor cell growth. Int Rev Cell Mol Biol. 286, 107–180 (2011)
 
 

 

ㄴ) Starting from the outside of cell, extracellular matrix, a few MS genes are active on tissue invasion and matrix remodeling by controlling the matrix metalloproteases.

Yan J., Yang Q. & Huang Q. Metastasis suppressor genes. Histol Histopathol 28, 285–292 (2013)
 

ㄷ) Numerous micro-RNA are identified as MS genes in cancers, which make the cellular signaling map more complex.

Pencheva N. & Tavazoie S. F. Control of metastatic progression by microRNA regulatory networks. Nat Cell Biol. 15, 546–554 (2013).
 

 

 

마무리하며...

사실 Metastasis 생물학적 기작에 대해 집중 다룰려고 했지만,, 쉽지 않은 주제다 보니, 부가 설명이 길어졌다.

사실 모든 생물학 주제들이 이런듯하다... 파면 팔수록 어렵고 난해하다. 아무튼..

다음 칼럼에서 Metastasis 의 다양한 가설들을 살펴보고 Public db가 있는지 확인해보자.

 

 

 

Metastasis (암전이) End

BioinformaticsAndMe

[Expert] Bio ICT 개발자

1. 주요 수행 업무 및 역할

  • Bio와 IT가 융합된 신사업을 추진하기 위애 Bioinformatics와 CS에 대한 지식과 경험을 두루 갖춘 융합형 인재를 채용하고자 하며 다음과 같은 업무를 수행하게 될 것입니다.
    • NGS Pipeline 및 관련 제반 시스템 구축
    • 유전체 분석 워크로드 생성 및  유효성 검증
    • 유전체 분석 프로세스 최적화
    • 클라우드 서비스 플랫폼 구축

 

2. 필요 역량

  • Sequence 분석 지식과 경험
  • BWA, Bowtie, GATK 및 관련 오픈소스 내부 구조 및 관련 알고리즘에 대한 이해
  • S/W Programming 기술(Java, Python, NodeJS, AngularJS, C/C++)
  • 유전체 분석과 관련된 서비스 플랫폼 구축 경험 우대
  • 오픈소스 커뮤니티 활동 경력 우대

 

3. 자격 요건

  • Bioinformatics 혹은 컴퓨터 공학 전공 석사 이상
  • Bioinformatics 관련 업무 3년 이상
  • 클라우드 서비스 플랫폼 구축 경험 유



주 근무지

 본사_SK T-타워

직무

 SW Engineering

조직

 Data_Unit
채용 유형 정규직
직급 유형 실무직(Expert)

접수기간

 2018. 7. 11- 2018. 8. 10 

#SK텔레콤 채용홈페이지

https://tas-sktelecom.taleo.net/careersection/ex/moresearch.ftl?lang=ko&portal

Location :

South Korea - Seoul


Job Description 

Field Bioinformatics Specialist 
Based in Seoul, Korea 

Thermo Fisher Scientific seeks a talented Bioinformatics Specialist to join a multidisciplinary team. This role is equally focused on the following:
  • Driving excellence in customer applications & technical support for both the pre-sales process and post-sales installation, training and troubleshooting
  • In-person and remote interaction with customers, field sales, sales managers, marketing and technical support staff
  • Working closely with customers to identify market opportunities through development and commercialization of new applications on systems
Key Responsibilities:
  • Provide technical informatics support for Thermo Fisher NGS hardware and software products and services by answering customer technical inquiries in a timely manner. Inquiries will be received via email, phone, or during customer visits.
  • Provide complete customer support on technical issues by utilizing all available resources. Escalates issues or problems when warranted.
  • Demonstrate proficiency in using all required computer systems and databases.
  • Record and manage customer complaints on technical and quality issues. Troubleshoot and advise on solutions to problems as required. Participates in analyzing complaint information to assist in complaint trending, and identification of potential quality issues.
  • Form a close relationship with the bioinformatics support team.
  • Deliver training to customers
  • Participate in training, both new product and continuing education to remain at the edge of scientific knowledge.
  • Contribute to departmental and team meetings.
  • Perform duties independently with only limited direction given. Job encounters recurring work situations with occasional variations from the norm, involving a moderate to high degree of complexity. Decisions are made within policy constraints. Occasionally, situations may warrant action outside of company guidelines, in which case representative is encouraged to share solution with Team Leader prior to action.
  • Erroneous decisions may lead to customer dissatisfaction and/or increased costs for the company. Normally receives little instruction on routine work, general instructions on new assignments.
  • May be required to perform other related duties as required and/or assigned.
Minimum Requirements/Qualifications:
  • Requires a M.Sc. in bioinformatics or related field. A Ph.D. or equivalent experience is preferred.
  • Strong system-level debugging and IT problem solving/trouble-shooting skills required.
  • Familiarity with data backup solutions, data migration, and disaster recovery and network security preferred.
  • Experience with Network TCP/IP, Firewalls, Active Directory, etc. a must.
  • Must possess strong analytical, organizational, written and oral communicative skills
Experience desired:
  • Possesses experience in two or more of the following fields: NGS sequencing analysis, genomics, genetics, gene expression analysis, sequence assembly, molecular biology and high content data and images.
  • In depth knowledge of bioinformatics software, resources and algorithms.
  • Experience of working in a Windows and LINUX/UNIX environment is essential
  • Familiarity with building and querying databases.
  • Experience with installation and configuration of hardware + software application / database products, specifically Oracle and/or SQL is required.
  • IT knowledge and basic system administration skills are required.
  • Working knowledge of scripting in a language such as PERL, Python or Java.
  • Knowledge of statistics for gene expression would be an advantage.
  • Proven ability to quickly learn large amounts of new, complex technical information required.
  • Demonstrated ability to effectively communicate, both orally and in writing, to customers and colleagues is required.
  • Ability to manage multiple priorities required.
  • Prior experience in customer service is preferred.
  • Must be able to travel up to 50% of the time to meet customer demands.



#써모피셔코리아 채용홈페이지

http://jobs.thermofisher.com/ShowJob/Id/242042/Field%20Bioinformatics%20Scientist

Amazon & PillPack (아마존, 온라인 약국 필팩 인수) Start.

BioinformaticsAndMe




헬스케어 산업으로 막대한 자본을 쏟아붓던 Amazon이 드디어 사고를 쳤다.

미국의 온라인 약품 배송 업체인 'PillPack'을 10억 달러(약 1조2000억)로 인수해버린 것이다!

아마존이 미국의 제약 시장 장악에 대한 야심을 여과없이 보여줬다 (아마.. 큰그림은 전세계로..).

이 소식을 접한 관련 매체들은 일제히 제약산업의 지각변동을 알렸다.


실제로 미국 증시의 지각이 흔들렸다.

미국의 오프라인 약국 업체들이 전 거래일 크게하락한 것이다.

• Walgreens Boots Alliance : -9.9%

• CVS Health : -6.1%

• RiteAid : -10.7%



우리나라엔 생소한 개념인 온라인 약국 업체인

필팩(PillPack)은?

 -매일 약을 복용 해야 하는 환자 (당뇨 등)들을 위한 처방약을 가정으로 배달해주는 의약품 유통 업체.

 -처방에 따라, 환자가 복용해야하는 정확한 양을 정시에 배달하는 서비스 보유.

 -필팩은 미국 49개주의 유통면허를 보유한 Mail-Order Pharmacy.

 -2017년 4,000명의 환자가 이용하여 10억이 넘는 매출을 기록한 중견약국체인.


또한, 필팩의 뛰어난 점은 위에서 언급한 대부분의 Mail-Order Pharmacy는 약통 채로 배송되나,

필팩의 경우 위에 사진처럼 정해진 시간에 1회 복용량으로 소분하여 제공한다는 사실이다.



#Amazon이 PillPack을 인수하면서 얻을 가치를 살펴보자.

1. PillPack은 이미 미국 전역의 49 개 주를 가졌다.

-아마존은 이미 차려진 밥상에 진입했으며, 이를 기반으로 온라인 의약품 유통 체인을 세계로 확장할 것이다.

2. 노년층을 사로 잡는다.

-현재 아마존의 주고객층은 18~34세이지만, 의약품의 최대 소비자인 노년층을 새로운 고객으로 확보하여 다른 비즈니스를 접목 가능하다.

3. 안정적인 수익

-배송되는 의약품 자체가 만성질환환자와 같이 반복적으로 소모되는 것이기에 안정적인 수익을 올릴 수 있다.

4. 비즈니스 Add-ON

-아마존이 이미 보유하고 있는 대규모 인프라를 통해 다양한 비즈니스 상품을 접목할 수 있다 (진짜 아마존이네.. 생태계..)



마무리하며..

아마존과 필팩의 양사간 인수 합의는 끝났으며, 규제기관 승인 후 올해 하반기에 마무리 될것으로 보고있다.

사실, 온라인 의약품 배송 서비스 자체가 우리나라에 매우 생소하기도하고.. 아무튼 재밌다.

아마존이 이름 그대로, 그들의 Amazon Ecosystem 을 크게크게 구축하고 있는 상황에서

구글, 애플, 월마트 등의 굵직한 라이벌들은 어떠한 행보를 보일지 (사실 이미 그들도 진행중..) 귀추가 주목된다. 




Amazon & PillPack (아마존, 온라인 약국 필팩 인수) End.

BioinformaticsAndMe


참고 : 제가 생물정보학 관련 부분만 발췌했습니다


모집부문

 

모집부문

구분

담당업무

자격요건 및 우대사항

서비스 개발
(
개인유전체사업)

신입
/
경력

- 서비스 분석지, 교육자료, 홍보물 등
 
서비스 전반에 필요한 콘텐츠 작성(main)
 
포함한 서비스 기획 및 개발업무

[자격요건]
- GWAS
논문 및 유전학 관련 논문에 대한 해석
 
Re-writing이 가능한 자
-
경력 2년 이상 (또는 신입이어도 능력이
 
검증되면 지원 가능)
-
생물학, 유전학, 영양학 등 질병 및 유전학에
 
대한 기본 개념이 있는 자

[
우대사항]
- SNP
기반의 개인 유전자 분석 서비스에 대한 
 
기획 및 개발 유경험자 우대
-
소비자 친화적인 콘텐츠 작성에 자신 있거나
 
의욕이 있는 사람
-
풍부한 아이디어 및 소비자 시장에 대한 이해가
 
있는 사람 우대
-
타인과 소통하며 능력과 열정을 갖고 자기
 
일에 책임감이 강한 사람
-
고객의 소리에 귀 기울일 수 있는 오픈
 
마인드의 사람

데이터분석

신입
/
경력

- NGS Raw data 처리 및 Quality Control
- NGS
분석
- Microarray
분석
- Omics
분석

[자격요건]
-
학사학위 이상 소지자
-
프로그래밍(Shell, python, R, perl, java)가능자
-
생명정보학, 생물/보건 통계학 전공자
 
또는 BI에 관심 있는 자

[
우대사항]
-
직무관련 지식 보유 및 프로젝트 진행 경험자
- NGS
데이터 또는 Biochip 데이터분석 경험자
- Open source
기반 프로그램 설치/사용 경험자

빅데이터부

신입
/
경력

- 빅데이터 플랫폼 개발 
 
ㆍ데이터통합 SW
 
ㆍ초고속데이터처리
 
ㆍ인메모리분산NoSQL
 
Data Lake & Super Datawarehou

[자격요건]
-
학사 이상 소지자
- Unix/Linux
환경에서의 프로그래밍   
  (C/Java/Python/Node.js
) 개발이 가능한 자
-
웹어플리케이션 개발 가능자

[
우대사항]
-
네트워크/멀티스레드/멀티프로세스 등의
 
기벌을 활용한 개발 경험자
- DBMS
연동 소프트웨어 개발이 가능한자
- Hadoop Eco System, Apache Spark, NoSQL
 
사용 경험자
-
분산 데이터 처리 환경에 대한 개발 경험자 
-
데이터 저장 알고리즘 및 데이터베이스
 
관련 개발 경험자

※ 국가보훈대상자 및 장애인은 관련법령에 의거하여 우대합니다

 

입사자 처우

 

- 근무형태 : 정규직(신입사원의 경우 내규에 따라 수습기간 부여)
-
급여 : 회사내규에 따름

 

복리후생

 

- 연금·보험 : 국민연금, 건강보험, 고용 및 산재보험
-
휴무·휴가 : 5일근무, 경조휴가, 연차휴가 등
-
보상제도 : 인센티브제, 우리사주조합운영, 생활운영자금대출
-
기타 : 복지수당지급, 사내동호회운영, 사내휴게실운영, Family-day운영 外

 

전형절차

 

- 1 : 서류전형(합격자에 한해 개별통보)
- 2
: 인·적성검사
- 3
: 면접전형(임원면접은 1, 2차로 진행될 수 있음)
  
서비스개발/데이터분석/빅데이터부 부문은 PT면접 또는 실기면접으로 진행될 수 있음
  *
임원 면접 합격자 채용검진 실시

 

제출서류

 

- 신입 : 입사지원서, 자기소개서경험소개서(* 해당 입사지원서 1, 2 page 작성안내 참고)
-
경력 : 입사지원서, 자기소개서경력소개서(* 해당 입사지원서 1, 2 page 작성안내 참고)

 

접수방법 및 기간

 

- 접수방법www.macrogen.com에 접속하여 당사양식(입사지원서) 다운로드 후 작성 또는 자유양식(워드나 한글파일)
                
이용하여 작성 후 이메일 접수 및 자사양식으로 사람인 온라인 입사지원
                 *
이메일(*****@************)접수 시 파일제목에 지원부문 및 성명 표기
                   [
 : NGS기술영업(국내)부문_홍길동]
-
접수기간2018. 7. 2 ~ 2018. 7. 15

 


[GWAS] Imputation Start.

BioinformaticsAndMe

Imputation 은 GWAS 분석에서 자주 사용되는 개념이다.
Imputation 이란?
유전학에서의 Imputation는 관찰되지 않은 Genotype을 통계적 기법에 의해 추론해내는 것
으로 이해하면 되겠다.
그렇다면 왜 GWAS에서 Imputation이 필요하느냐?
대부분의 SNP Chip 들이 50~100만개 정도의 probe를 가지고 있고, 이 숫자는
30억 염기를 가지고 있는 사람에게 턱없이 적은 숫자이다 (1.5%정도인 Exon 영역만 고려하여도 아주 적다).
하지만 염색체는 단일 염기보다 블록 단위의 형태로 유전이 되는 Linkage Disequilibrium(LD, 연관비평형)의 특징을 갖고 있기 때문에,



적절한 reference만 존재한다면, GWAS 결과의 halpotype을 유추할 수 있다.
사실, LD 나 Hapotype 에 대해 깊게 들어가면 칼럼이 길어지므로 다음번에 구체적으로 다루기로 하며,
간단히 정리하자면, SNP chip calling 결과에서 non-SNP(아예 probe 정보가 chip에 없었던) position의 allele을 유추할 수 있다.
아래 그림을 보면 이해하기가 쉽겠다. 

#Impuation을 하는 목적을 가볍게 정리해보면,
1. SNP chip calling을 했는데 missing value가 너무 많다.
2. 위에서 말한 것처럼 보고싶은 영역을 확대하고 싶다.
3. Imputation을 통해 N 수를 늘려서 통계 파워를 높이고 싶다.
4. 다른 스터디와 합쳐서 분석해보고 싶다 (Meta analysis).
등이 되겠다.
참고로..
아래 그림은 Plos one 논문으로, SNP chip 간의 공유하는 SNP들을 테이블 형태로 나타내었다.

Meta 분석을 하는데, Chip 사이의 공유하는 SNP이 거의 없다면... Imputation에서 상당한 스킬?이  필요하지 싶다.

#Imputation의 과정은 크게 2가지로 나뉜다.
(물론 아래 2가지를 한번의 command로 실행할 수 있지만 run time이 굉장히 길다)
1. Phasing
- 해당 서열이 부모 중 누구에게서 물려 받은건지 구분하는 작업 (부모 haplotype 정보가 있으면 매우 유리하지만, 없을 때 추정하는 알고리즘 존재).
- SHAPEIT2 추천
2. Imputation
- Pre-Phasing이 끝나고 Imputation이 과정을 수행 (여러 통계적 기법이 존재).
- IMPUTE2 추천
위에서 추천한 툴들은 일반적으로 많이 사용되는 것으로 기호에 따라 다양한 툴을 사용해도 좋다.
예를 들어, IMPUTE보단 정확도가 다소 떨어지지만, 빠른 속도를 위해 BEAGLE을 사용할 수도 있다.
사실 Imputation 과정이 본인이 생각하기에 어려운 분석 중 하나라 생각되며..
스크립트를 효율적으로 구성하지 못하면 굉장한 run time이 발생한다 (Imputation 자체가 오래 걸림).
아는 선생님께서는 한달이 걸렸다고 한다..



마무리하며..

Imputation 과정에서 가장 신경써야할 부분 중 하나는 '어떤 Reference를 사용할 것인가?' 이다.

일반적으로 HAPMAP과 1000G이 사용되고 있으며, 그나마 1000G에 중국과 일본의 population이 들어가 있어,

한국인 GWAS 분석에서 적합한 reference라 볼 수 있겠다.

그러나,, 한국인 GWAS 분석에서 'Korean reference'를 사용해야하는 건 아주 당연하다.

질병관리본부에서 'KRGDB(Korean Reference Genome) project'로 한국인으로 구성된 ref가 있다.

(http://152.99.75.168/KRGDB/menuPages/intro.jsp) - raw 데이터 사용하려면 따로 신청해야 하는듯..

끝.



[GWAS] Imputation End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[NGS Alignment] BWT 알고리즘  (0) 2018.07.06

[CNV] ONCOCNV Start.

BioinformaticsAndMe


ONCOCNV - a package to detect copy number changes in Deep Sequencing data


ONCOCNV 는 Amplicon sequencing 플랫폼에서 Copy Number Variation 찾기에 특화된 Tool로

OncoDna(벨기에)와 Bioinformatics Laboratory of Institut Curie (프랑스)의 협력으로 개발되었다.


최근 암 진단 검사에서 Customized Targeted Sequencing 에 Ampliseq을 사용하는 경우가 많이 늘었는데,

여러 이유가 있겠지만, 변이 검출의 높은 정확성과 빠른 실험 TAT(Turn A Round)가 장점일 듯 하다.


OncoDNA(벨기에)는 유럽쪽에는 꽤 유명한 암진단전문기업으로,

ONCOCNV 개발에 자사에 CNV 검출 방법을 많이 녹아내지 않았을까?.. 하는 추측을 해본다.

(OncoDNA는 또한 Liquid Biopsy 에서 힘좀 쓴다는 기업으로 알려져 있으므로, 관련 내용을 다음 칼럼에서 좀 더 살펴보도록 하겠다)



#ONCOCNV 다운 및 설치

http://boevalab.com/ONCOCNV/


#ONCOCNV 특징

-Ampliseq 데이터에서 large CNA를 감지할 수 있는 Multi-factor normalization 및 Annotation 기법을 보유.

-CGH(Comparative Genomic Hybridization)에 상응하는 높은 CNA 검출 정확도.

-따라서, Ampliseq하고 ONCOCNV 돌리면, CGH 또는 SNP array 실험할 필요가 없음.

위에는 ONCOCNV의 전체 파이프라인 이다. 간단하게 설명하면,

1. 샘플들의 Library size, GC content들을 표준화시켜놓고,

2. Control만 가지고 Reference에 해당하는 baseline construction 작업을 수행한다.

-ONCOCNV에서는 Reference 만드는 Control 샘플을 최소 3개 이상 권하고 있지만, 툴을 돌려보면 2개만 있어도 작동은 된다.

-Control 샘플은 많으면 많을수록 타겟 질환희 CNA 검출 정확도가 높아진다.

3. 만들어진 Reference를 기반으로 Tumor 샘플의 CNA가 있는지 통계 기법으로 확인하고,

4. 여러 보정 작업을 끝낸 최종 CNA를 시각화 하는 것으로 마무리.


ONCOCNV input은 BAM 파일이 사용되기 떄문에 돌리는 것 자체는 리눅스 환경에서 크게 어렵지 않다.

샘플 크기에 따라 다르겠지만, 상대적으로 Reference construction하는 과정이 시간이 좀 걸린다.



마무리하며..

ONCOCNV에서도 말한 것처럼, 이 툴의 큰 장점은 Amplicon sequencing에 큰 장점이 있다는 것이다.

다른 CNV 툴들은 Amplicon 단위가 아니라 엑손 단위로 묶어서 CNV를 계산해 버리기 때문에, Ampliseq으로 CNV 보는게 부적절할 수 있다.

아직까지는 많은 사람들이 사용하는 툴은 아니라 생각되지만, 진단검사와 Ampliseq 분석이 흔해질수록,

그 강점이 빛나는 CNV detection tool 이 되지 않을까? 라는 생각이 든다.


ONCOCNV 논문

https://academic.oup.com/bioinformatics/article/30/24/3443/2422154




[CNV] ONCOCNV End.

BioinformaticsAndMe

'Bioinformatics Tool' 카테고리의 다른 글

[BLAST] BLAST result  (0) 2018.11.26
[NGS Fusion] Fusion Tools  (0) 2018.09.09
[NGS QC] MultiQC  (0) 2018.08.12
[Cytoscape] GeneMANIA 1  (0) 2018.07.22
[Driver Annotation] iCAGES  (0) 2018.07.13

[Pachyderm] Splitting Data for Distributed Processing (분산처리) Start.

BioinformaticsAndMe





Splitting Data for Distributed Processing (분산처리)




Pachyderm을 사용하면 보유한 데이터를 여러 개의 'datums' 로 나누어 병렬 처리를 할 수 ​​있다.

단일 파일로 Pachyderm에 commit해야하는 데이터 세트인 경우,

Pachyderm은 분산 컴퓨팅을 위한 데이터 세트를 자동으로 분리하는 방법을 제공한다.


유저 정보로 이루어진 데이터 셋을 예로 들어보자.

CSV format의 단일 파일로 한 줄당 하나의 record가 담겨 있다.

user_data.csv

$ head user_data.csv
1,cyukhtin0@stumbleupon.com,144.155.176.12
2,csisneros1@over-blog.com,26.119.26.5
3,jeye2@instagram.com,13.165.230.106
4,rnollet3@hexun.com,58.52.147.83
5,bposkitt4@irs.gov,51.247.120.167
6,vvenmore5@hubpages.com,161.189.245.212
7,lcoyte6@ask.com,56.13.147.134
8,atuke7@psu.edu,78.178.247.163
9,nmorrell8@howstuffworks.com,28.172.10.170
10,afynn9@google.com.au,166.14.112.65


위 파일을 Pachyderm에 하나의 파일로 저장하면, 유저 record 각각을 별도의 "데이텀"으로 병렬 처리 할 수 ​​없다.

물론, 이러한 유저 record를 commit하기 전에 수동으로 개별 파일로 분리 할 수 ​​있지만, Pachyderm은 훨씬 쉬운 방법을 갖고 있다.


put-file API에는 파일을 별도의 데이텀으로 자동 분할하는 옵션이 있다. put-file--split 옵션을 사용해보자.

예를 들어, 아래는 user_data.csv 파일을 각 행의 개별 데이텀으로 자동 분할하는 command이다.

$ pachctl put-file users master -c -f user_data.csv --split line --target-file-datums 1

--split line : Pachyderm이 파일을 line에 따라 분리하도록 지정

--target-file-datums : 각 결과 파일이 최대 하나의 'datum'(one line)을 포함하도록 지정.


참고로, Pachyderm은 ​repo에서 user_data.csv를 여전히 ​하나의 entity로 표시한다.

$ pachctl list-file users master
NAME                 TYPE                SIZE                
user_data.csv   dir                 5.346 KiB


그러나 위 entity는 현재 모든 분할 record를 포함하는 디렉토리다.

$ pachctl list-file users master user_data.csv
NAME                             TYPE                SIZE                
user_data.csv/0000000000000000   file                43 B                
user_data.csv/0000000000000001   file                39 B                
user_data.csv/0000000000000002   file                37 B                
user_data.csv/0000000000000003   file                34 B                
user_data.csv/0000000000000004   file                35 B                
user_data.csv/0000000000000005   file                41 B                
user_data.csv/0000000000000006   file                32 B
etc...


/user_data.csv/*의 glob 패턴을 사용하여 repo 유저를 입력으로 사용하는 파이프 라인을 통해,

각 유저 record (즉, CSV의 각 행)를 병렬로 처리할 수 있다.


현재 Pachyderm은 라인이나 JSON blob에서 이러한 유형의 분할을 지원한다.


# Split a json file on json blobs, putting
# each json blob into it's own file.
$ pachctl put-file users master -c -f user_data.json --split json --target-file-datums 1

# Split a json file on json blobs, putting
# 3 json blobs into each split file.
$ pachctl put-file users master -c -f user_data.json --split json --target-file-datums 3

# Split a file on lines, putting each 100 
# bytes chunk into the split files.
$ pachctl put-file users master -c -f user_data.txt --split line --target-file-bytes 100




#Reference

https://medium.com/pachyderm-data/bioinformatics-with-pachyderm-shell-scripts-at-scale-ae1cce672b83




[Pachyderm] Splitting Data for Distributed Processing (분산처리) End.

BioinformaticsAndMe

'Program' 카테고리의 다른 글

Jupyter notebook (주피터 노트북)  (0) 2019.11.14
[Kubernetes] 쿠버네티스 소개  (0) 2019.10.18
API 기초 학습  (0) 2019.09.26
Docker 설치  (0) 2018.09.03
Docker 시작하기  (1) 2018.07.17

한국형 AI의사 '닥터 앤서' 정부 개발 추친 Start.

BioinformaticsAndMe


18년 4월 30일, 서울아산병원서 AI기반 정밀의료 솔루션 출범식이 개최되었다.

정부에서 3년간 357억 원 투입하며, 서울아산병원의 총괄하에 25개 의료기관, 19개 기업 공동개발에 참여한다.


닥터 앤서 (Dr. Answer) 란?

◦ 의료 빅데이터를 통해 의사의 진단·치료를 지원해주며 무엇이든 다 대답해주는 AI닥터.

◦ Dr. Answer(Ai, network, software, er)

◦ 인공지능이 의료 빅데이터를 활용하여 진단·치료에 대한 답을 준다는 의미



□ ‘닥터 앤서’는 다양한 의료데이터(진단정보, 의료영상, 유전체정보, 생활패턴 등)를 연계·분석하여 개인 특성에 맞는 질병 예측·진단·치료 지원.


ㅇ 3년간('18~'20) 총 357억 원(‘18년 50억 원)을 투입하여 AI의료데이터 통합·연계 기술뿐만 아니라, 8개 질환(방암, 대장암, 전립선암, 심뇌혈관질환, 심장질환, 뇌전증, 치매, 소아희귀난치성유전질환) 21개의 국민 체감형 인공지능 의료 소프트웨어(SW)를 개발할 예정.

①병원별 다양한 의료정보(EMR*영상*유전체)를 학습 가능한 빅데이터로 생성·통합·분석을 위한 모듈(데이터레이블, 데이터 관리, AI학습 등) 구축.

②8개 질환의 단계별(예측(예방), 분석·진단, 치료, 예후관리) 인공지능(빅데이터 분석, 정보검색, 상태 모니터링 등) SW 개발.

③수술·교육훈련 및 심리·재활 치료 등에 활용 가능한 의료 데이터 통합 시각화 SW 개발 등을 추진.


ㅇ 학습데이터로 활용할 병원 데이터는 병원별 임상시험심사위원회 (IRB : Institutional Review Board) 심의를 통해 개인정보에 대한 엄격한 비식별 조치를 수행하고, 데이터 수집 분석 활용 폐기 각 단계별로 보안체계를 적용할 예정.


□ ‘닥터 앤서’ 개발에는 본 사업의 총괄주관병원인 서울아산병원을 비롯하여, 수도권 및 권역별 거점 병원 등 총 25개 의료기관과 뷰노, 제이엘케이인스펙션, 카카오브레인 등 19개의 ICT·SW기업이 참여.


ㅇ 국내 최초로 클라우드 기반으로 개발 중인 정밀의료 병원정보시스템(P-HIS)과 연계하여 한국형 정밀의료 서비스를 제공할 예정이며, 의료SW 신시장 창출과 지역 간 의료서비스 격차 해소는 물론 더 나아가 대 국민 의료비 절감의 해법을 제시할 것으로 기대.



□ 한편, 본 사업은 한국형 정밀의료 시장의 성장을 가속화하기 위하여 1차년도(‘18년) 3개 이상 질환의 시제품 개발을 착수하고, 2차년도(’19년)부터는 국민 체감형 서비스를 제공할 수 있도록 테스팅 계획.


ㅇ 국내 인공지능 헬스케어 시장 연평균 성장률은 세계시장보다 높은 70.4%(2015년 17.9억원→2020년 256.4억원)를 보이고 있어 이번 사업을 통해, 新시장 창출 및 미래 먹거리 확보에 추진력을 얻을 수 있을 것으로 보임.


□ 이와 관련하여 서울아산병원 김종재 사업추진단장은 “동일질환이라도 개인의 건강상태, 생활습관, 유전체정보 등에 따라 증상이 다르므로 이 프로젝트를 통하여 한국형 정밀의료의 해법을 찾고 개인 맞춤형 의료시대를 열어갈 것” 이라고 의지를 표명.


□ 과기정통부 김용수 차관은 “한국형 정밀의료의 새 지형을 그릴 수 있는 메디컬드림팀이 탄생했다.”라며,

ㅇ “미래형 먹거리인 의료 산업의 혁신뿐만 아니라 국민건강증진을 위해 ‘닥터 앤서’의 성공적 개발에 지원을 아끼지 않을 것이며, 국내 유수한 병원과 기업이 힘을 한데 모은 만큼 지능형 SW기술 개발은 물론 의료 정보통신기술(ICT)산업계의 선순환 생태계가 구축되기를 바란다.”라고 밝혔다.




한국형 AI의사 '닥터 앤서' 정부 개발 추친 End.

BioinformaticsAndMe

Permutation test (순열검정법) Start.

BioinformaticsAndMe


Permutation test 는 t-test 등의 일반적인 통계 검정을 수행할 만큼 샘플의 수가 크지 않은 경우에 사용할 수 있는 검정 방법. 이 경우 주어진 샘플을 무작위로 추출하여 인공적으로 샘플 숫자를 늘림으로써 전체 모수를 통계 검정이 가능한 크기만큼 키운 다음, 원래 주어진 샘플의 통계 값(ex. 평균, 분산 등)이 전체 모수와 비교하여 얼마나 유의하게 차이 나는지를 검정하는 방법이다.



#‘저체중아의 산모’ vs ‘저체중아x의 산모’ 의 체중 차이를 Permutation test 해보자


1. birthwt 데이터 로딩
source("https://bioconductor.org/biocLite.R")
biocLite("MASS") #MASS package에 있는 birthwt 데이터셋을 사용하려함
library(MASS)
data(birthwt)
View(birthwt)


2. 정상군과 실험군 분류

normal = birthwt[birthwt[,"low"]==0, "lwt"]

normal

case = birthwt[birthwt[,"low"]==1, "lwt"]

case

t.test(normal, case)


3. 두 그룹의 산모 체중에 대한 t 검정 값

real_test = t.test(normal, case)$statistic 

real_test


4. 두 그룹간의 permutation test

permfunc.R

source("permfunc.R") #첨부파일 다운하여 실행

tperm = perm.test(normal, case, n.perm=1000) #1000번 Permutation을 통해 1000개의 t value 생성

hist(tperm)

abline(v=abs(real_test), lty=2, col=2) #실제 t value 가 분포의 극단치에서 보임 (우연이 아닐 것이라고 예상)

5. Empirical p value

pvalue = mean(abs(tperm) >= abs(real_test))  #위 그래프에서 Red 점선 오른쪽에 있는 개수들의 평균을 구함

pvalue

[1] 0.011

따라서, 계산된 Emprical p-value는 0.011로 '저체중아 출산과 산모의 체중은 관련성이 있다' 라고 결론 내릴 수 있다.


# 위 내용은 BITEC (Biomedical Informatics Training and Education Center) 교육내용을 참고하였다.


6. 실습 Example (위와 같은 맥락이지만, 연습삼아 해보셔도 좋을듯하다)

1) make up some ‘true’ data

carrier <- rep(c(0,1), c(100,200))

null.y <- rnorm(300)

alt.y <- rnorm(300, mean=carrier/2)

2) t-test

t.test(null.y~carrier, var.equal=TRUE)

t.test(alt.y~carrier, var.equal=TRUE)

3) permutation test

null.diff <- mean(null.y[carrier==1])-mean(null.y[carrier==0])
alt.diff <- mean(alt.y[carrier==1])-mean(alt.y[carrier==0])
one.test <- function(x,y) {
  xstar<-sample(x)
  mean(y[xstar==1])-mean(y[xstar==0])
}
many.truenull <- replicate(1000, one.test(carrier, null.y))
many.falsenull <- replicate(1000, one.test(carrier, alt.y))
4) 귀무가설 채택
hist(many.truenull)
abline(v=null.diff, lwd=2, col="purple")
mean(abs(many.truenull) > abs(null.diff))

5) 귀무가설 기각
hist(many.falsenull)
abline(v=alt.diff, lwd=2, col="purple")
mean(abs(many.falsenull) > abs(alt.diff))



마무리하며..

Permutation test 에 대한 간단한 R 예제를 살펴보았다.

통계검정 하려는 샘플 수가 적을 때 사용할 수 있는 기법이라는 점이 핵심으로 보인다.




Permutation test (순열검정법) End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R, Command line interface Ⅱ  (0) 2018.07.20
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14
Cogena-2 (CoExpression 분석)  (0) 2018.07.06
Cogena-1 (CoExpression 분석)  (0) 2018.07.05

+ Recent posts