의료용 빅데이터와 AI 기술이 적용된 의료기기 허가/심사 가이드라인 Start.

BioinformaticsAndMe




'의료용 빅데이터와 AI 기술이 적용된 의료기기 허가/심사 가이드라인'

은 사실 17년 11월, 식약처에서 발표한 내용이다.

현재는 다소 용두사미의 형태로 진행되고 있는 것으로 보이지만..

국내에서 의료 데이터와 인공지능에 관련된 규제가 어떤식으로 풀어질지 예측해볼 수 있을 것 같아 다뤄본다.




1. 배경

- 빅데이터 및 인공지능(Artificial Intelligence, AI) 기술이 적용된 의료기기는 기계학습 방식으로 의료용 빅데이터를 학습하고 특정 패턴을 인식하여 질병을 진단·예측하거나 환자에게 적합한 맞춤 치료법을 제공 가능.

- 이러한 기술을 적용한 제품의 국내시장은 2020년, 2조에서 2030년, 28조까지 성장할 것으로 예측.

- 빅데이터 및 AI 기술이 적용된 제품들에 대해 현 시점에서 의료기기로 관리해야할 필요성을 검토하고, 향후 의료기기에 해당하는 제품 개발에 대비하여 구체적인 허가·심사 방안을 제시.

- 의료기기로 허가 받은 AI 소프트웨어는 실제 의료계에서 사용되며, 보험 수가 대상.

- AI 소프트웨어가 최적의 약을 추천하더라도 국내 건강보험의 적용 대상이 아닌 비의료기기의 경우 환자에게 ‘그림의 떡’인 상황.

- 기계학습 방식은 소프트웨어가 의료용 빅데이터를 학습하여 질병의 특징을 스스로 도출하는 방식으로 의료진이 빅데이터 및 인공지능 기술이 적용된 의료기기에 환자의료정보를 입력하면 소프트웨어에 의해 도출된 질병의 특징을 이용하여 보조진단 결과를 출력할 수 있다.

- 기계학습 방식의 빅데이터 및 인공지능 기술이 적용된 의료기기는 사용자 또는 제조자가 학습 데이터를 반영할 수 있어 진단 알고리즘이 실시간으로 변경 가능하며, 클라우드 컴퓨팅 기술을 적용 하여 네트워크를 통해 의료기관 자체 또는 외부의 클라우드 서버에서 데이터를 저장하거나 사용할 수 있다.





2. 의료기기 구분기준

A) 의료기기에 해당하는 의료용 소프트웨어

가) 의료용 빅데이터를 기반으로 의료정보를 분석하여 얻은 임상정보 (예: 종양 병변 크기·위치 등)를 이용하여 환자의 질병 유무, 상태 등에 대한 가능성 정도를 자동으로 진단·예측, 모니터링하거나 치료하는 소프트웨어.

나) 의료용 빅데이터를 기반으로 의료영상, 체외진단기기로부터 나온 시그널, 신호획득시스템(심전계, 뇌파계 등)에서 나오는 패턴 또는 시그널을 분석하여 진단·치료에 필요한 임상정보를 제공하는 소프트웨어.


B) 의료기기에 해당하지 않는 의료용 소프트웨어

가) 의료기관의 행정사무(병실·재고관리, 전자수속 등)를 지원하는 소프트웨어.

나) 운동·레저 및 일상적인 건강관리 목적의 소프트웨어.

다) 교육·연구 목적의 소프트웨어.

라) 질병 치료·진단 등과 관계없는 의료기록 관리 목적의 소프트웨어.

마) 의료인에게 환자의 건강정보 또는 진료정보를 정리 및 추적하는 툴을 제공하거나 의학정보에 쉽게 접근하도록 도움을 주는 소프트웨어.

# 비의료기기에 해당하는 경우, 식품의약품안전처는 의료기기 규제적용의 필요성을 판단하기 위하여 국내·외 자료를 조사·분석하거나 주기적으로 실태조사를 실시하며, 개발 중인 제품들에 대해 위해요소가 확인되는 경우에는 의료기기로 분류하여 관리할 수 있다.





3. 허가심사 방안

A) 성능 및 임상적 유효성 검증 항목 

빅데이터 및 인공지능 기술이 적용된 의료기기의 성능 및 임상적 유효성 검증은 민감도(Sensitivity), 특이도(Specificity), 양성 예측도(Positive Predictive Value), 음성 예측도(Negative Predictive Value), ROC(Receiver Operating Characteristic) Curve, AUC(Area Under the Curve) 등의 항목을 이용하여 제품의 진단에 대한 정확도를 확인할 수 있다. 성능 및 임상적 유효성 검증에 사용되는 데이터는 객관성을 유지하기 위하여 개발 데이터와의 상호 독립성 등을 고려하여야 한다.

또한, 클라우드 컴퓨팅 기술 등을 적용하여 네트워크를 통해 의료정보의 저장·전송이 이루어지는 경우, 의료정보 보안과 클라우드 전송에 따라 의료정보의 변화 또는 손실의 발생 여부를 고려할 수 있다. 네트워크 사용에 대한 보안 요구사항으로는 서버 접근 통제, 사용자 인증, 의료정보 전송 및 저장 시 암호화 기법 사용, 비식별화 등이 있으며,「유헬스케어 의료기기 시스템 허가심사 가이드라인(2016)」의 ‘3. 시스템 데이터 보안에 대한 요구사항’을 참조하여 제품의 특성에 맞게 설정하도록 한다.


B) 임상적 유효성 확인 

빅데이터 및 인공지능 기술이 적용된 의료기기에 적용 가능한 임상적 유효성 확인 방법으로는 크게 전향적 연구와 후향적 연구, 그리고 전향적 연구와 후향적 연구를 병행하는 전향적·후향적 연구가 있으며, 제품의 특성에 따라 적합한 임상시험 방법을 설계할 수 있다.




4. 클라우드 컴퓨팅 기술 적용에 따른 허가 범위 

- 빅데이터 및 인공지능 기술이 적용된 의료기기에 사용될 수 있는 클라우드 구성 형태는 의료기관 자체적으로 데이터 센터를 내부에 설치 하여 해당 의료기관에서만 이용할 수 있는 사설 클라우드(Private cloud)와 외부 서비스 업체에서 제공하는 클라우드 서비스를 이용하는 공용 클라우드(Public cloud), 사설 클라우드와 공용 클라우드를 조합 하여 사용하는 하이브리드 클라우드(Hybrid cloud)로 나눌 수 있다.

- 클라우드 컴퓨팅 기술이 적용될 경우 클라우드 서버는 의료기기 관리 대상은 아니나 클라우드 서비스 형태, 서버의 운영 환경은 허가심사 신청서에 기재하도록 한다.

- 의료기기 허가·인증 후 클라우드 서비스 형태(예: IaaS, PaaS, SaaS 등)의 변경이나 의료기기의 성능에 영향을 미치는 클라우드 서버의 운영 환경에 대한 변경이 발생한 경우에는 변경허가를 받아야 한다.

- 그러나 의료기기의 성능에 영향을 미치지 않는 경우에는 변경 허가·인증 없이 제조자 및 의료기관에서 자체적으로 관리하도록 한다.

- 또한, 의료기기 제조자(수입자)는 의료기기 소프트웨어의 보안(접근통제, 개인정보 비식별화, 데이터 암·복호화 등)에 필요한 기술적 조치를 수행하고 문서화하여야 한다.

- 클라우드 서버의 보안에 필요한 관리적·물리적·기술적 사항은 의료법 및 개인정보보호법에 따라 관리되어야 한다.





5. 기대효과 및 해외사례

- 빅5 병원에 환자 쏠림이 심각한 상황에서, 의료기기로 허가된 AI 소프트웨어는 상대적으로 소외된 다른 지방 병원의 환자에 의료 접근성을 높임.

- 비용적인 측면에서도 보험 수가가 적용된 AI 소프트웨어는 상대적으로 낮은 진료비로 인해 사용자의 폭발적인 증가가 예상됨.

- 미국 : 2002년 유방 촬영술 CAD에 대한 보험 수가를 적용 후, 미국의 CAD 시장은 수 천억원 규모에 이르게 됨.

- 미국 : 보험 혜택을 받기 전까지 유방촬영술 CAD의 사용 비중은 5%도 안될 만큼 미미했지만, 2008년에는 74%, 2012년에는 83%까지 폭발적으로 증가.  

- 일본 : 일본에서는 2014년 11월 의약품 및 의료기기 등 법 개정으로, 스마트 디바이스 등이 의료기기로 승인을 취득할 수 있게 해 AI 관련 기기 및 시스템 시장 확대를 위한 환경이 조성됨.

- 일본 : 일본 의료분야 AI 관련 시장, 2025년까지 4배 성장 전망.





6. 국내 관련 법안

- 의료법, 의료기기법, 클라우드법, 생명윤리법





7. 국내 동향

- 18년 05월, '뷰노'에서 인공지능 기반 의료기기 ‘뷰노메드 본에이지’(의료영상 분석 장치 소프트웨어, 2등급)가 국내 최초로 인공지능 의료기기 인허가 승인을 받음.

- 뷰노메드 본에이지는 뷰노가 개발한 인공지능 기반 골연령 진단 소프트웨어. 

- 성조숙증과 저신장증 등의 검사를 위해 촬영된 수골 X-ray 영상을 인공지능이 자동으로 분석, 의사의 판독 업무를 보조해줌.





#의료용 인공지능 소프트웨어 관련주

- IBM, 인피니트헬스케어, 비트컴퓨터




의료용 빅데이터와 AI 기술이 적용된 의료기기 허가/심사 가이드라인 End.

BioinformaticsAndMe

베이지안 이론 (Bayesian theory) Start.

BioinformaticsAndMe







1. 빈도 확률(Frequentist probability) vs 베이지안 확률(Bayesian probability)

-빈도 확률(Frequentist probability)

> '동전의 앞면' 이 나올 확률은 어떻게 구할까? 우선 던져볼 것이다. 10번 던졌을 때 4개가 앞면이면, 앞면이 나올 확률 = 2/5.

100번 던졌을 때 45개가 앞면이면, 앞면이 나올 확률 = 9/20.  이런식으로 시행횟수를 반복하여 빈도수(Frequency)를 측정하게 되면,

우리에게 익숙한 빈도 확률을 계산할 수 있다.

-베이지안 확률(Bayesian probability)

> '화산이 폭발할 확률' 을 빈도 확률로 계산할 수 있을까? 어려울 것이다. 우리가 동전 던지기하듯 화산을 폭발시킬 수 없기에 빈도 확률 방법으로는 신뢰할만한 값을 얻기 어렵다. 세상에는 반복할 수 없는 사건이 무수히 많고, '빈도 확률'의 개념을 그러한 사건에 적용을 할 수 없다. 일어나지 않은 일에 대한 확률을 불확실성(uncertainty)의 개념. 즉, 사건과 관련 있는 어려 확률을 이용해 새롭게 일어날 사건을 추정하는 것이 베이지안 확률이다.






2. 베이지안 확률(Bayesian probability) 정의

-베이즈정리 (Bayes’ theorem)라 불리며, 종속적(의존적) 관계에 놓인 사건들을 기반으로 확률을 구함.

-두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리.

-사전확률 P(A)과 우도확률 P(B|A)를 안다면 사후확률 P(A|B)를 알 수 있음.

-베이지안 확률은 아래 조건부 확률로 나타내며, 정보를 업데이트하면서 사후확률 P(A|B)를 구하는 것이다.



P(A), 사전확률(prior probability) : 결과가 나타나기 전에 결정되어 있는 A(원인)의 확률.
P(B|A), 우도확률(likelihood probability) : A(원인)가 발생하였다는 조건하에서 B(결과)가 발생할 확률.
P(A|B), 사후확률(posterior probability) : B(결과)가 발생하였다는 조건하에서 A(원인)가 발생하였을 확률.




3. 베이지안 확률(Bayesian probability) 계산식

-위의 정의가 나오는 계산식 과정이다.

-P(B) 값은 A와 A 여집합과 P(B) 사이의 교집합 합으로 구할 수 있다.





4. 예제 


Q1) A씨가 Breast cancer 검사결과 양성으로 판정 받았다. A씨가 Breast cancer에 걸린 것으로 나올 확률은 몇 %일까?

(Breast cancer 검사의 정확도=90%) 

(Breast cancer 걸릴 확률=1%) 


A씨는 'Positive response'일 때, Breast Cancer에 걸릴 확률’을 구하는 것.

P(Breast|Positive) = P(Positive|Breast) * P(Breast) / P(Positive)


- P(Positive|Breast) = 0.9,    P(Positive|no Breast) = 0.1

- P(Breast) = 0.01,    P(no Breast) = 0.99

- P(Positive) = Breast일 때 Positive일 확률 + Breast이 아닐 때 Positive일 확률

    = 0.9 * 0.01 + 0.1 * 0.99

    = 0.108


-> P(Breast|Positive) = 0.9 * 0.01 / 0.108 = 0.083


A씨가 Breast cancer 검사에서 Positive일 경우, 실제 Breast cancer일 확률은 약 8.3%다.



Q2) 주어진 조건들을 이용해서 여성일 확률을 계산하자

-왼쪽부터 살펴보면,

여성일 확률이 1/2, 안경을 쓰고 여성일 확률이 1/5, 안경을 쓸 확률이 2/5 이다.

위 정보들을 조합하여 조건부확률에 적용했을 때, 안경을 쓴 사람이 여성일 확률은 1/4 이다.


-오른쪽을 살펴보면,

여성일 확률이 1/2, 머리가 길고 여성일 확률이 4/5, 머리가 길 확률이 2/3 이다.

위 정보들을 조합하여 조건부확률에 적용했을 때, 머리가 긴 사람이 여성일 확률은 3/5 이다.




마무리하며..

베이지안 확률은 머신 러닝 이해에 굉장히 중요하다.

Machine Learning은 데이터셋이 주어졌을 때, 특정 사건 혹은 가설의 확률을 높여줄 수 있는 최적의 모델을 찾는 것을 목적으로 한다.

따라서, 베이지안 모델이 주어진 정보를 업데이트 해나가면서, 최적의 사후확률을 계산하는 방식과 일맥상통한다.

다음 칼럼에서는 기계학습 과정에서 베이지안 이론을 어떤식으로 활용하는지 살펴보겠다.




베이지안 이론 (Bayesian theory) End.

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10
정규성 검정 (Normality Test)  (1) 2018.07.21

[PCA] 주성분분석 2 Start.

BioinformaticsAndMe


'[PCA] 주성분분석 1' 에 이어지는 내용이다.




8. Best line 을 찾기 위한 정량적 접근 방법

-샘플들의 좌표(초록색점)를 설명하는 Best line을 찾는 과정은 두가지로 설명된다.

-먼저 위에 그림처럼 임의의 빨간선을 그엇을 때, 샘플들의 최단거리를 '초록색 X'로 표시한다.

-모든 샘플의 최단거리를 표시하고, 모든 거리의 합이 가장 최소가 되는 Best line을 찾는게 첫번째 방법이다.

-'Minimization method' 라 칭하겠다. 


-다음은 Origin (0, 0) 에서 '초록색 X'로 표시까지의 거리를 최대로하는 Best line을 찾는 것이 두번째 방법이다.

-'Maximization method' 라 칭하겠다.

-사실, Minimization이나 Maximization 모두 계산해보면 같은 의미를 가지게 된다.

-Best line에서 샘플 좌표들의 거리의 합이 최단일수록, 원점에서 각 초록색 X의 거리의 합은 최대가 된다.

-수학적으로 우리가 잘 알고있는 피타고라스 정리를 적용하면 이해가 빨라진다. 아래를 살펴보자.




9. 피타고라스 정리 적용

-'a' : 원점에서 샘플 좌표까지의 거리 (일정함, 고정된 값)

-'b' : Best line 과 샘플 좌표의 최단 거리 (Minimization 값)

-'c' : 원점에서 샘플 좌표의 최단 거리에 있는 Best line까지의 거리 (Maximization 값)

-'a'의 값이 변하지 않고, 피타고라스 정리에 따라 b값이 적어질수록 c값이 커지고, b값이 커질수록 c값이 작아진다.

-정리하자면,  PCA는 'b'를 최소로하는 혹은 'c'를 최대로하는 Best line (주성분)을 찾는 과정이라 볼 수 있겠다.




10. Sum of Squared distances (SS) 찾기

-Best line을 찾는 과정은 주로 Maximization을 활용한다.

-위에 'd1' 과 같이 최대거리를 통해 주성분을 만드는게 실제 계산과정에서 용이하다.

-Minimization은 데이터의 최단거리를 이용해 주성분을 만든다는 해석의 측면으로 접근한다.


-우리가 가진 샘플 6개의 d 값 (d1, d2, d3, d4, d5, d6)를 구할 수 있고 제곱하여 합한다.

-제곱하는 이유는 d 값은 상대적이므로 음수의 값을 가질 수 있기에 제곱한다.

-제곱의 합은 'sum of squared distances', 줄여서 'SS'라 부른다.

-우리는 저 SS가 최대인 Best line (주성분)을 찾으면 끝난다.




11. Principal Component 1 (PC1)  &  Principal Component 2 (PC2)

-우리가 찾아낸 Best line이 위에서 언급했던대로 '주성분 1 (Principal Component 1)'이 된다.


-위 그림의 화살표는 Gene1과 Gene2의 분포정도와 PC1 의 관계를 설명한다.

-'우리가 PC1을 만들었을때, 샘플들의 분포는 Gene1보다 Gene2의 스케일을 따르는 경향이 있다' 라 이해하면 되겠다.

-우리의 주성분 PC1 은 Gene1의 값에 크게 영향받고 있으며,

-다시 해석하여, 샘플들은 Gene1 발현에 큰 편차를 보인다.


-'주성분 2 (Principal Component 2)' PC1과 직교하는 라인이라 생각하면 되겠다.

-PC2의 자세한 설명은 동영상을 참고하시면 된다.


-앞서 과정에서 만든 PC1과 그에 수직하는 PC2을 rotation하면 위와 같은 그림을 볼 수 있다.

-우리가 그동안 봐왔던 PCA의 그림의 두 축이 생성된 순간이다.




마무리하며..

PCA 알고리즘 마지막 파트에서는 PC 축에 늘 함께 붙어있는 ('%' ,설명력) 을 설명하는 시간을 갖겠다.




[PCA] 주성분분석 2 End.

BioinformaticsAndMe

'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 1  (0) 2018.07.25
[GWAS] Imputation  (2) 2018.07.09
[NGS Alignment] BWT 알고리즘  (0) 2018.07.06

Machine Leaning & Genomics Start.

BioinformaticsAndMe


#Machine Learning 정의
- 기계학습. 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야.
- “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure Pif its performance at tasks in T, as measured by P, improves with experience E” – T.Michell(1997)
- "작업 T에 대해 기준 P로 측정한 성능경험 E로 인해 향상됐다면, 그 프로그램은 작업 T에 대해 기준 P의 관점에서 경험 E로부터 "배웠다"라고 말한다.


# Genomics 정의

유전체학. 특정 생물체의 개별 유전자들의 총합인 유전체 및 관련 정보를 체계적으로 연구하는 학문.

- 2003년, 인간이 지닌 모든 DNA를 분석하려했던 인간 지놈 프로젝트(Human Genome Project, HGP)에 의해 Genomics 의 중요성 전파.




# 기계학습과 유전체학

- Genomics에서는 차세대 유전체 분석 기술 (NGS; next generation sequencing technology)의 급격한 발전으로 방대한 유전체 데이터가 생산 중.

- 이를 기반으로 개인 유전체 정보의 맞춤 정밀의학 (precision medicine)를 추구.

- 유전체 빅데이터에 머신러닝 기법 접목은 복잡한 인간의 유전체 정보를 종합적으로 해석할 수 있는 미래 산업의 동력.

- 머신러닝을 이용하여 암, 치매, 비만 등 다양한 질병들의 예방, 조기진단 및 효과적인 맞춤치료가 가능,



- 현재 NGS 분석은 100 만원 이하(앞으로 더 내릴 듯.)의 저렴한 비용으로 진행.

- 미국 배우 안젤리나 졸리는 유방암에 취약한 BRCA 유전자 변이 보유를 확인한 뒤, 유방절제 시행.

- 앞으로 머신러닝이 본격적으로 유전체 데이터와 접목되어, 유전체와 질병과의 연관성이 더욱 많이 발굴될 것이라 예상.

- 아래는 Genomics 분야에서 머신러닝을 어떤식으로 사용하는지 참고할만한 논문들이다.






# 또한, 아래 논문은 머신러닝과 유전체학 관계의 기본지침서 같이 소개되어지는 논문이다.

위 논문 내용 중 몇가지를 정리해보면,

- 머신러닝 알고리즘은 여러 유전체 분석(microarray, RNA-seq, DNase-seq, ChIP-seq)에서 만들어진 Genomic data를 사용할 수 있다.


- 머신러닝 프로그램들이 유전자의 기능을 annotation 하는 데 광범위하게 사용 중 (Gene ontology term assignment).


- 네트워크 모델을 tanning하여 세포의 유전자 발현을 모델링.


- 현재, Genomics에서 머신러닝과 통계기법의 경계는 모호하여 적절히 융합되어 사용 중.






Machine Leaning & Genomics End.

BioinformaticsAndMe

23andMe (DTC, Direct To Consumer) Start.

BioinformaticsAndMe




DTC (Direct To Consumer)는 '소비자들이 의료기관을 거치지 않고 유전자 검사 기업에 직접 의뢰해 유전자 검사를 받는 서비스' 이다.

DTC라는 말을 한번이라도 들어봤다면, 미국의 DTC 기업인

'23andMe' 또한 낯설지 않을 것이다.

사실 개인적으로 회사명을 되게 잘지었다고 생각한다.

23andMe = 23개염색체(22auto+1sex chromosome) + 본인(Me). "너의 모든 염색체를 분석해주마"


#23andMe 홈페이지

https://www.23andme.com/en-int/




#23andMe 는 무슨 회사일까?

- 23andMe는 2006년 미국 실리콘밸리 유전자 정보 분석 스타트업으로 창업.

- 의료기관 방문 필요 없이 소비자가 자신의 타액을 보내면, 유전자 정보를 분석하여 질병 발병 확률을 제공

- 단돈 99달러로 120여 개 질병에 대한 질병위험도(Health Risk), 약물민감도(Drug Response), 보인자 여부(Inherited Conditions), 웰니스(Wellness), 혈통 분석(Ancestry Composition) 정보 서비스 제공.

- 23andMe는 구글 창업자인 세르게이 브린의 부인(앤 워짓스키) 창업한 회사 (현재는 아내가 아니다...;;)

- 현재, 수 백만명의 고객 유전형 데이터를 모아놓은 기업.

- 구글이 열심히 투자해서 23andMe 뒤에는 항상 구글이 버티고 있음.. (구글의 관계사)




#23andMe의 DTC 과정

아래는 18년 7월 기준, 23andMe가 내놓은 DTC 유투브 광고이다 (남성버전도 있으나 같은 내용이다)

23andMe 키트를 사서 DTC가 진행되는 과정이다.

택배로 받은 튜브에 침을 콱 뱉고 다시 23andMe에 보내주면, 본인의 건강, 질병, 조상 등의 정보들을 얻을 수 있단다.

(아래 두 배우들이 연기를 굉장히 잘한다..)



23andMe 광고가 DTC 회사 중엔 꽤 많아보이는데,  예전에 많은 광고를 여러곳에 때리다가

미 FDA 에서 경고를 준적이 있다고한다 (확실한 의학적 근거없이 소비자를 현혹시킨다며...)

그렇지만, 최근 'BRCA1/2 안젤리나졸리 서비스 (유방암, 난소암 검사)'

23andMe 도 할 수 있도록 FDA가 승인해주는걸 보면, 지금은 사이가 좋구나!?

참고:

2013 - FDA가 23andMe 판매 중지 명령

2017 - FDA가 23andMe 질병위험 예측 서비스를 허가

2018 - FDA가 23andMe BRCA1/2 유전자의 DTC 승인




#제약회사에게 데이터를 판매한 23andMe (미국에서는 합법~)

- 23andMe의 경우 사용자 동의를 받은 후에는, 개인의 유전정보 소유권과 통제권을 회사가 가지고 있다.

- 특히 23andMe는 개인 유전체 사업에서 유전체 빅데이터 사업으로 확장시키면서,

- 유전형-표현형 유전체 데이터베이스 구축하고, 제약회사/학계/연구소 대상 데이터 독점권 계약 및 신약 개발 추진 중이다. 


- 제넨텍, 화이자 등을 포함 14개의 회사 및 연구기관과 파트너십을 체결했다고 한다.

- 2015년,  23andMe는 개인 유전자 분석 정보를 사용할 수 있는 권리를 세계 최대 바이오회사인 제넨텍(Genentech)에 6,000만달러에 판매했다.







#23andMe 유사 기업

- Foundation Medicine(미국), Pathway Genomics(미국)

- Pathway Genomics 잠깐 소개!

~소량의 혈액으로 암 검진 및 발병 예측.

~IBM Watson에 기반한 의료 데이터 분석.

~유전체 분석 기술과 스마트폰의 활용성을 결합하여 개인별 맞춤형 건강관리 서비스를 제공.

~인공지능 기술을 탑재한 모바일 앱 ‘OME’를 개발.






#23andMe 최근 동향



- 글락소스미스클라인(GSK)이 2분기 실적 발표와 함께 유전자검사 전문기업 23andMe에 3억 달러를 투자하기로 결정.
- 글락소스미스클라인이 23andMe의 방대한 DNA 데이터베이스를 독점적으로 활용하여 신약 발굴 엔진을 강화할 생각.
- 유전적으로 입증된 표적을 연구함으로써 개발 비용을 절감하고 다른 방법 모색 가능.
- GSK와 23andMe가 맺은 4년 동안의 제휴에서 첫 프로젝트는 파킨슨병 의약품 개발.
- 23andMe는 이미 파킨스병 유전자 프로파일을 가진 수백 명의 고객을 보유.




#국내 DTC 관련주

- 마크로젠, 테라젠이텍스, 디엔에이링크, 랩지노믹스




마무리하며..

사실 국내 DTC 사업은 모두 의욕은 넘치고 있으나,

엄청엄청 규제안풀리는 국내 상황때문에 애매한 상황에 놓인 것으로 보인다.

그렇지만!!

갑자기 법의 규제가 급격히 완화되고,

일반인들이 개인 유전 정보를 강력히 원하게 되는 날이 온다면,


23andMe 같은 또 하나의 선구적인 기업이 국내에도 조만간 나타나지 않을까?




23andMe (DTC, Direct To Consumer) End.

BioinformaticsAndMe

R, 결측치 처리 (Missing value, NA) Start.

BioinformaticsAndMe



#R 작업시 발생하는 결측치 (missing value)를 다뤄보자.


-R 프로그래밍에서 결측지(missing value)는 NA (Not Available) 라는 문자로 처리해야 한다. NaN (Not a Number)는 분모를 0으로 나누는 것과 같이 계산이 불가능 할 경우 출력되는 문자다.

> y <- c(1,2,3, NA)

> y

[1]  1  2  3 NA


#is.na()는 벡터의 결측지가 존재할 경우 true

> is.na(y)

[1] FALSE FALSE FALSE  TRUE


> summary(y)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
    1.0       1.5       2.0       2.0       2.5       3.0         1 

#NA는 missing value를 표현하는 논리형 자료이지만, "NA"는 문자열 그 자체이다.
> is.na( NA )
[1] TRUE
> is.na( "NA" )
[1] FALSE


#특정 값을 NA로 바꾸기 (-999 -> NA )

> ages <- c(48, 78, 56, 88, -999, 13, 26, -999)

> ages[ ages == -999] <- NA

> ages

[1] 48 78 56 88 NA 13 26 NA


#결측지(missing value)가 하나라도 포함된 데이터가 존재할 경우 연산의 결과 역시 NA가 된다. 따라서 함수 역시 아래와 같이 NA가 결과로 나온다.

> sum(ages)

[1] NA

> mean(ages)

[1] NA


#NA 데이터를 제외하고 연산하고 싶을 경우  na.rm = TRUE 매개변수를 넣어주면 된다.

> sum(ages, na.rm = TRUE)

[1] 309

> mean(ages, na.rm=TRUE)

[1] 51.5




#결측치 (missing value) 실습 예제


> weight <- c(65.4, 55, 380, 72.2, 51, NA)

> height <- c(170, 155, NA, 173, 161, 166)

> gender <- c("M", "F","M","M","F","F")

> testDate <- c("2013/09/01", "2013/09/01", "2013/09/05", "2013/09/14", "2013/10/11", "2013/10/26")

> patients <- data.frame( weight = weight, height=height, gender=gender, testDate=testDate)


> patients
  weight height gender   testDate
1   65.4    170      M 2013/09/01
2   55.0    155      F 2013/09/01
3  380.0    NA      M 2013/09/05
4   72.2    173      M 2013/09/14
5   51.0    161      F 2013/10/11
6    NA    166      F 2013/10/26

> str(patients)
'data.frame':   6 obs. of  4 variables:
 $ weight  : num  65.4 55 380 72.2 51 NA
 $ height  : num  170 155 NA 173 161 166
 $ gender  : Factor w/ 2 levels "F","M": 2 1 2 2 1 1
 $ testDate: Factor w/ 5 levels "2013/09/01","2013/09/05",..: 1 1 2 3 4 5

#몸무게 측정을 거부한 환자 (6), 키 측정을 거부한 환자 (3)를 제외한 환자들 목록을 부르기
> na.omit(patients) # 해당 row 데이터를 삭제한 후 출력하는 방법
  weight height gender   testDate
1   65.4    170      M 2013/09/01
2   55.0    155      F 2013/09/01
4   72.2    173      M 2013/09/14
5   51.0    161      F 2013/10/11

# complete.cases(patients) # NA가 존재하는 경우 FALSE를 리턴

[1]  TRUE  TRUE FALSE  TRUE  TRUE FALSE


#patients[complete.cases(patients),] # complete.cases 함수 리턴값이 참인 경우를 출력하는 방법

  weight height gender   testDate

1   65.4    170      M 2013/09/01

2   55.0    155      F 2013/09/01

4   72.2    173      M 2013/09/14

5   51.0    161      F 2013/10/11


#patients 데이터에서 weight, height만 가져오기
> patients.sub <- patients[ ,c("weight","height")]
> patients.sub
  weight height
1   65.4    170
2   55.0    155
3  380.0     NA
4   72.2    173
5   51.0    161
6     NA    166

#patients.sub 데이터 연산하기
> apply(patients.sub, 2, mean) # patients.sub 데이터에 2: 열단위, mean 함수 적용
weight height 
    NA     NA 

#NA 데이터 삭제한 후 연산하기
> apply(patients.sub, 2, mean, na.rm=TRUE)
weight height 
124.72 165.00 




R, 결측치 처리 (Missing value, NA) End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R 상관분석 (R correlation test)  (0) 2018.08.10
막대그래프 (Barplot)  (0) 2018.08.06
R, Command line interface Ⅱ  (0) 2018.07.20
R, Command line interface Ⅰ  (0) 2018.07.16
R, RStudio 설치  (0) 2018.07.14

+ Recent posts