#녹십자지놈 채용홈페이지

http://recruit.greencross.com/

Python 시작 Start

BioinformaticsAndMe








파이썬(python)

▶1991년 프로그래머인 귀도 반 로섬(Guido van Rossum)이 발표한 고급 프로그래밍 언어

▶플랫폼 독립적이며 인터프리터식, 객체지향적, 동적 타이핑 대화형 언어

▶“Monty Python’s Flying Circus” (영국 코미디프로)에서 파이썬 이름이 유래

▶귀도는 구글에 근무했고 현재 DropBox에서 근무 중

Gudi Van Rossum





파이썬 로고(logo)

두 마리의 뱀이 겹쳐 있음





파이썬 Language

플랫폼 독립적 인터프리터 언어


플랫폼 = OS (Operating System)

윈도우, 리눅스, 안드로이드, 맥OS 등 프로그램이 실행되는 운영 체제


독립적인 = 관계없는, 상관없는

OS에 상관없이 프로그램을 작성되면 여러 플랫폼에서 사용 가능


인터프리터

소스코드를 바로 실행할 수 있게 지원하는 프로그램 실행 방법



 

 인터프리터 (Interpreter)

 컴파일러 (Compiler) 

 번역단위

 명령 줄 단위

 프로그램 단위

 작동방식

 소스코드를 실행시점에 해석

 소스코드를  기계어로 먼저 번역

 장점

 기억장소 적게 필요

 빠른 실행속도

 단점

 느린 실행속도

 기억장소 많이 필요

 주요언어

 파이썬, 스칼라

 자바, C




Philosophy of Python

Life is short, You need Python

인생은 짧다, 당신은 파이썬이 필요하다

→아름다운 것이 추한 것보다 낫다 (Beautiful is better than ugly)
→명시적인 것이 암시적인 것보다 낫다 (Explicit is better than implicit)
→간결한 것이 복잡한 것보다 낫다 (Simple is better than complex)





#Reference

1) https://ko.wikipedia.org/wiki/%EA%B7%80%EB%8F%84_%EB%B0%98_%EB%A1%9C%EC%84%AC

2) https://namu.wiki/w/Python

3) https://en.wikipedia.org/wiki/Python_(programming_language)





Python 시작 End

BioinformaticsAndMe

'Python' 카테고리의 다른 글

Anaconda 설치  (0) 2019.10.08
Python JSON  (0) 2019.10.02
Python API  (0) 2019.09.30
Variable (Python 변수)  (0) 2019.09.25
Python이 성장하는 7가지 이유  (0) 2019.09.17

머신러닝 용어(Machine Learning Glossary) Start

BioinformaticsAndMe






1. 특성(Feature)과 라벨(Label)

ㄱ) 특성(Feature)
-특성은 입력 변수 (단순 선형 회귀의 x 변수)
-간단한 머신러닝 모델은 하나의 특성 사용
-복잡한 머신러닝 모델은 수백만 개의 특성 사용 가능
ㄴ) 라벨(Label)
-라벨은 예측하는 항목 (단순 선형 회귀의 y 변수)
-암의 유무, 연봉 등 알고자 하는 목적에 따라 라벨 지정




2. 학습과 추론

ㄱ) 학습
-학습은 모델을 만들거나 배우는 것
   *모델: 특성과 라벨의 관계를 정의한 수식
-모델이 특성과 라벨의 관계를 점차적으로 학습해나감
ㄴ) 추론
-추론은 학습된 모델을 라벨이 없는 예에 적용하는 것
-학습된 모델을 사용하여 라벨 예측




3. 회귀(Regression)와 분류(Classification)

ㄱ) 회귀 모델
-연속적인 값의 라벨을 예측
-예: 온도, 몸무게
ㄴ) 분류 모델
-불연속적인 값의 라벨을 예측
-예: 암 유무, 인종







#Reference

1) https://www.coursera.org/learn/machine-learning

2) https://developers.google.com/machine-learning/crash-course

3) https://thenewstack.io/machine-learning-linear-regression-mere-mortals/

4) https://datawhatnow.com/pseudo-labeling-semi-supervised-learning/

5) https://towardsdatascience.com/regression-or-classification-linear-or-logistic-f093e8757b9c





머신러닝 용어(Machine Learning Glossary) End

BioinformaticsAndMe

심슨의 역설 (Simpson's Paradox) Start

BioinformaticsAndMe





심슨의 역설 (Simpson Paradox)

영국의 통계학자 에드워드 심슨이 정리한 역설 (심슨가족 관련 x)

각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류

사람들의 직관과 반대되는 역설적인 상황이 발생


아래 예를 살펴보면 이해가 쉬울 듯 하다.


EX) 약물 치료 효과

신장결석 치료에서 심슨의 역설 예를 살펴보자 (C. R. Charig, D. R. Webb, S. R. Payne, O. E. Wickham, March 1986)


#Table1

위 테이블을 보고 어떤 치료 약물이 신장결석에 효과적인가? 라고 물었을 때,

'Treatment B 가 더 효과적이다' 라고 말할 수 있다.

하지만, 이 테이블에 변수(신장결석 크기)를 하나 추가하여 좀 더 상세히 살펴보면,


#Table2

위와 같은 결과 결과를 볼 수 있다.

'Treatment A 가 작은 결석, 큰 결석 모두에서 더 효과적이다' 의 결과를 냈다

(처음 직관적으로 살펴본 결과에 반대되는 역설적인 상황이 발생 = 심슨 파라독스)


여기서 신장결석의 크기는 혼재변수(confounding variable or hidden variable)로서,

Table1에서는 이러한 숨겨진 변수가 누락된 상태이다.

변수가 누락된 상태에서 데이터가 통합되었기 때문에, 원래 결과와 전혀 다른 의미를 도출하는 오류를 범하게 된다.



심슨의 역설 피하는 방법은 연구자가 분석하는 데이터를 전반적으로 이해하고

변수에 영향을 주는 모든 요인들을 고려해야만 한다.

신장결석을 치료하는 연구에서는 예를 들어 '결석의 크기, 환자의 나이, 성별 등'의 인자들을 살펴봐야겠다.




아래는 'EBS 지식프라임'의 심슨 파라독스 관련 영상이다.







#Reference
1) https://www.analyticsindiamag.com/understanding-simpsons-paradox-and-its-impact-on-data-analytics/
2) https://www.mathpark.com/530
3) https://namu.wiki/w/%EC%8B%AC%EC%8A%A8%EC%9D%98%20%EC%97%AD%EC%84%A4
4) https://www.youtube.com/watch?v=7qekbQ8Ra1E




심슨의 역설 (Simpson's Paradox) End

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

카이제곱검정 (Chi square test)  (0) 2019.10.01
FDR (False Discovery Rate)  (1) 2019.09.23
산포도 (Dispersion)  (0) 2019.09.02
비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29

적아세포증 (Erythroblastosis fetalis) Start.

BioinformaticsAndMe





적아세포증

태아의 혈액 속에 미성숙한 유핵 적혈구가 늘어나는 증상




1. 정의

적아세포증이란 'RH-'인 여성이 'RH+'인 아기를 임신하는 경우 나타나는 현상

모체의 RH 항체에 의해 태아의 적혈구가 파괴되고, 이로 인해 태아에게서

미성숙한 적혈구(적아세포)가 많이 증가되며 결국 유산, 사산에 이르게 함






2. Rh식 혈액형

붉은털 원숭이 적혈구를 주사하여 얻어진 면역혈청으로 붉은털원숭이 적혈구와 반응 시켰더니 응집되었고,

백인의 적혈구와는 85%가 응집하고 15%가 응집되지 않는 것을 발견하고 붉은털 원숭이 Rhesus의 앞 두글자를 따서 Rh혈액형으로 명명

• Rh+ : 적혈구 막에 RhD 응집원을 지님

• Rh- : 적혈구 막에 RhD 응집원을 지니지 않음





3. 적아세포증 과정

ㄱ) 'Rh+ 남자'와 결혼한 'Rh- 여자'가 'Rh+ 아이'를 임신해 출산할 때 태아혈액이 모체로 넘어갈 수 있음

ㄴ) 모체 내에서 RhD 항원에 대해 체액성 면역 반응이 일어나 항체가 만들어지고 기억 B세포가 생김

ㄷ) 'Rh- 여자'가 다시 'Rh+ 아이'를 임신하면, 임신 중 태아혈액이 모체로 넘어가서 기억 B세포를 활성화

ㄹ) 모체에서 많은 양의 항체가 합성되어 태반을 통해 태아혈액으로 들어가 'Rh+ 적혈구'들을 파괴

ㅁ) 태아혈액에 미성숙한 적혈구 아세포가 다량 생성되고 태아는 산소부족으로 사산, 유산됨




4. 쿰즈 검사

적아 세포증의 판별 또는 혈액에 특정 항원에 대한 항체가 있는지 파악

태아에게 적아 세포증이 있으면 침강이 생김

• 직접 쿰즈 검사 : 항원이 부착되는 적혈구의 표면에 결합되어 있는 적혈구 항체 또는 보체를 확인하는 검사

• 간접 쿰즈 검사 : 혈액 내에 순환하는 적혈구에 대한 항체를 확인하는 검사








#Reference

1) https://www.sciencetimes.co.kr/?news=rh-%ED%98%88%EC%95%A1%ED%98%95%EC%9D%98-%EC%A0%81%EC%95%84%EC%84%B8%ED%8F%AC%EC%A6%9D%EC%9D%B4-%EA%B6%81%EA%B8%88%ED%95%B4%EC%9A%94

2) https://terms.naver.com/entry.nhn?docId=1225518&cid=40942&categoryId=32774

3) https://howshealth.com/what-is-erythroblastosis-fetalis-treatment/

4) http://guro.kumc.or.kr/dept/main/index.do?DP_CODE=GRCP&MENU_ID=003036048036

5) https://microbenotes.com/rh-blood-group-system/

6) http://file.megastudy.net/FileServer/teacher/%EC%A1%B1%EB%B3%B4%EB%85%B8%ED%8A%B8_%EC%88%9C%ED%99%98.pdf

7) http://amc.seoul.kr/asan/healthinfo/management/managementDetail.do?managementId=532





적아세포증 (Erythroblastosis fetalis) End.

BioinformaticsAndMe

'Medicine' 카테고리의 다른 글

겸상적혈구빈혈증 (Sickle cell anemia)  (0) 2019.11.26
[Medical terminology] 의학용어2  (0) 2019.11.01
[Medical terminology] 의학용어1  (0) 2019.10.31
Rare disease (희귀질환)  (0) 2018.09.04
Metastasis (암전이)  (1) 2018.07.11

산포도 (Dispersion) Start.

BioinformaticsAndMe





산포도 (Dispersion)

데이터가 얼마나 퍼져 있는지 설명하는 지표 (흩어진 정도).

범위, 분산, 표준편차, 사분범위 등을 산포도의 지표로 사용한다.

일반적으로 값이 클수록 데이터가 넓게 퍼져 있으며,

               값이 작을수록 데이터가 조밀하게 분포해 있다.




1. 범위 (Range)

-주어진 데이터 분포에서 '최대값(max)-최소값(min)'

-범위의 값이 크다면 데이터들이 넓게 퍼져 있음




2. 분산 (Variance)

-확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자

  '실제값(actual value) - 평균값(average value)'

-분산(or 표준편차) 값이 클수록, 데이터 값들이 전체평균에 비해 변동이 큼


#예제

ㄱ) 6, 2, 3, 1 의 데이터들이 주어졌을 때 평균값: 3

ㄴ) 실제값(actual value) - 평균값(average value)


ㄷ) 앞에서 구한 총합(14)을 총데이터 숫자(4개)로 나눠준 값 = 분산 값(3.5)




3. 표준편차 (Standard Deviation;SD)

-대부분 통계 분석에서는 분산의 제곱근인 표준편차가 주로 사용됨 (데이터 단위 맞추기 위함)

-표준편차가 클수록 데이터 값들이 흩어져 있음


#예제

아래 그림에서 표준편차가 상대적으로 큰 파란색 점들이 더 넓은 분포를 이루고 있음




4. 사분위수 범위(Interquartile range;IQR)

-사분위수 범위는 데이터 값들의 중간 50%에 포함되는 산포도를 의미

-사분위수 범위 = Q3(상위25%값) - Q1(하위25%값)

-이상치(Outlier)가 주는 영향을 최소화하기 위해 사용









#Reference
1) https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0
2) https://slideplayer.com/slide/7622435/
3) https://unofficed.com/standard-deviations/
4) https://ko.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/interquartile-range-iqr/a/interquartile-range-review



산포도 (Dispersion) End.

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

FDR (False Discovery Rate)  (1) 2019.09.23
심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19



직   무    1) 컴퓨터 기술을 활용하여 표적 타겟에 적용하는 후보 물질 탐색 및 발굴  

             2) Machine Learning 자체 플랫폼 최적화  

             3) 신약 개발 전략 수립  

학   력 : 석사 이상            

전   공 : 생물정보학(bioinformatics) 혹은 관련 계통 (컴퓨터, 통계학 등)  

경   력 : 3년 이상    

필   수 : python 또는 R 등을 이용한 machine learning 및 deep learning algorithm 개발자 

우   대 : 분자 생물학 관련 in vitro, in vivo 효능 평가 실험 유경험자  

근무지 : SK케미칼 판교 본사 (경기도 분당) 












#SK케미칼 채용홈페이지

http://www.skcareers.com/POS/TRM2102.aspx?PosCD=P1908D040014&rURL=/POS/TRM2101.aspx

R, as.Date (날짜 변환) Start.

BioinformaticsAndMe






as.Date

: 날짜 type으로 conversion



#실습데이터

> weight <- c(65.4, 55, 380, 72.2, 51, NA)

> height <- c(170, 155, NA, 173, 161, 166)

> gender <- c("M", "F","M","M","F","F")

> testDate <- c("2013/09/01", "2013/09/01", "2013/09/05", "2013/09/14", "2013/10/11", "2013/10/26")

> patients <- data.frame( weight = weight, height=height, gender=gender, testDate=testDate)




#환자 데이터 날짜를 실제 date 형태로 계산하기

> patients

  weight height gender   testDate

1   65.4    170      M 2013/09/01

2   55.0    155      F 2013/09/01

3  380.0     NA      M 2013/09/05

4   72.2    173      M 2013/09/14

5   51.0    161      F 2013/10/11

6     NA    166      F 2013/10/26


> patients$testDate <- as.Date(testDate)

> patients

  weight height gender   testDate
1   65.4    170      M 2013-09-01
2   55.0    155      F 2013-09-01
3  380.0     NA      M 2013-09-05
4   72.2    173      M 2013-09-14
5   51.0    161      F 2013-10-11
6     NA    166      F 2013-10-26





R, as.Date (날짜 변환) End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

if, else, else if, ifelse (R 조건문)  (0) 2019.09.16
while, for (R 반복문)  (0) 2019.09.16
pathview (패스웨이 분석)  (2) 2019.05.22
R, 파일 입출력 (FILE I/O)  (0) 2018.09.11
R, T-test (R, T검정)  (0) 2018.08.29




#LG생활건강 채용홈페이지

http://apply.lg.com/app/job/RetrieveJobNoticesDetail.rpi

비모수 검정 (Non-parametric test) Start.

BioinformaticsAndMe





비모수 검정(Non-parametric test)

비모수 검정(Non-parametric test)은 모수에 대한 가정을 전제로 하지 않고 모집단의 형태와 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계적으로 검정하는 분석 방법이다.


1. 비모수적 검정을 사용하는 때

ㄱ) 표본수가 30개 미만이면서 정규성을 만족하는 경우.

-이론적으로 표본의 수가 30 이상이면 중심극한정리에 의해 모수적 방법을 사용할 수 있다.


ㄴ) 변수의 척도가 명목척도이거나 서열 척도인 경우.

-비모수적 방법은 대게 Rank(상대적인 크기)를 많이 이용한다.


ㄷ) 수치에는 의미가 없고 상대적 크기가 의미 있는 경우.




2. 모수검정 vs 비모수검정




3. 모수검정과 비모수검정의 종류



4. 비모수검정 예제 (R example)

CBT: Cognitive Behavior Treatment)로 수행하였을 경우의 몸무게 차이를 짝검정

> CBT <- subset(anorexia, Treat=='CBT')

> shapiro.test( CBT$Prewt - CBT$Postwt )

 

      Shapiro-Wilk normality test


data:  CBT$Prewt - CBT$Postwt

W = 0.8962, p-value = 0.007945


p-value가 0.05보다 작으므로 귀무가설을 기각 -> 데이터가 정규분포를 따르지 않음.
따라서 t-test 대신 비모수 방법인 wilcoxon signed rank test를 이용한다.
paired 데이터이므로 치료 전후의 차이가 0인지를 검정하면 된다.

> wilcox.test( CBT$Prewt, CBT$Postwt, paired=TRUE )

Wilcoxon signed rank test with continuity correction

data:  CBT$Prewt and CBT$Postwt
V = 131.5, p-value = 0.06447
alternative hypothesis: true location shift is not equal to 0

paired=TRUE 옵션을 사용하여 수행. p-value가 유의수준이 아니므로 CBT 전후 체중차이 없다고 판단할 수 있다.






#Reference
1) https://en.wikipedia.org/wiki/Nonparametric_statistics
2) https://keydifferences.com/difference-between-parametric-and-nonparametric-test.html



비모수 검정 (Non-parametric test) End.

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
산포도 (Dispersion)  (0) 2019.09.02
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10

+ Recent posts