T-검정 (T-test) Start.

BioinformaticsAndMe





1. T검정(T-test) ?

통계학자 윌리엄 고셋(가명 'Student')이 기네스 양조 공장에서 일하고 있었는데,

적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착안하여 t 분포를 제안.


T-test는 두 집단 간의 평균을 비교하는 모수적 통계방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용 가능.

#모수적 방법: 모집단의 특성을 가정하여 유도된 검정법.

#비모수적 방법: 모집단의 모수에 대한 가정 없이 유도된 검정법.


Table1. Independent t test: 비교하는 두 군이 서로 독립인 경우.

  Treatment A와 Treatment B는 서로 독립적이므로 A와 B의 변화량 비교.


Table2. Paired t test: 서로 짝을 이뤄 비교하는 경우.

     ID 값을 기준으로 Treatment A와 Treatment B의 변화량을 짝지어 비교.






2. T 분포 (Student’s t-distribution)

-정규 분포(normal distribution)의 평균을 측정할 때 많이 사용하는 분포.

-모집단이 정규분포라는 정도만 알고, σ2(모분산)을 모를 때 s2(표본분산)으로 대체하여 모 평균 μ를 구할 때 사용.

-적은 표본으로도 모집단 평균을 추정하려고 정규분포 대신에 사용되는 확률분포.

-표준정규분포와 유사하게 0 을 중심으로 좌우대칭이나, 표준정규분포보다 평평하고 기다란 꼬리를 갖음 (양쪽 꼬리가 두터운 형태).

-자유도(표본수 - 1)가 증가할수록 표준정규분포에 가까워짐 (자유도가 30 이 넘으면 표준정규분포와 비슷해짐; 중심극한정리).





3. 독립표본 T검정 (Independent T test) 예제

각기 다른 두 모집단의 속성인 평균을 비교하기 위하여, 두 모집단으로부터 표본들을 독립적으로 추출하여 표본의 평균들을 비교함으로써 모집단의 유사성을 검정하는 방법. 두 독립표본 Z 검정과 유사하지만 두 모집단의 분산을 알지 못하고 표본의 평균을 가지고 두 모집단을 비교하기에 표준오차의 계산이 상이하다.

* 등분산가정을 충족 (두 모집단의 분산이 동일함) - 표준오차 계산 시 통합분산을 사용하므로 자유도는 (n-2).

* 표본의 분산(= 집단변화량=표준편차의 제곱)


예) 전통적 교수법과 새 교수법에 의한 학업성취도 차이를 유의수준 0.05에서 검정


(저질 화살표 죄송합니다.)


귀무가설을 기각하므로 유의수준 0.05에서 전통적 교수법과 새 교수법에 의한 학업성취도 차이가 있다






#아래 내용을 참고하였습니다

1) Kim, T. K. (2015). T test as a parametric statistic. Korean journal of anesthesiology, 68(6), 540-546.

2) https://namu.wiki/w/%EC%8A%A4%ED%8A%9C%EB%8D%98%EC%B8%A0%20t-%EB%B6%84%ED%8F%AC

3) http://www.cogsci.bme.hu/~ktkuser/KURZUSOK/BMETE47MC38/2015_2016_1/7_The%20t-test.pdf

4) http://www.ktword.co.kr/abbr_view.php?m_temp1=1134

5) http://elearning.kocw.net/KOCW/document/2016/ust/jusejong/7.pdf






T-검정 (T-test) End.

BioinformaticsAndMe

'Statistics' 카테고리의 다른 글

산포도 (Dispersion)  (0) 2019.09.02
비모수 검정 (Non-parametric test)  (0) 2019.05.31
회귀 분석 (Regression analysis)  (0) 2018.08.19
상관 분석 (Correlation analysis)  (0) 2018.08.10
베이지안 이론 (Bayesian theory)  (1) 2018.08.02

2018년 하반기 신입사원 채용(석/박사) 관심채용 등록하기

모집기간
 
2018.08.28 10:00 ~ 2018.09.13 14:00
모집분야
조직모집분야상세 내용전공근무지
중앙연구소R&D- Platform Tech : 무기소재 합성/가공,
코팅, 분산, 점/접착, 유기/고분자 
합성 및 물성, 박막증착, CFD, 
고분자유변학, 공정설계, Optimization,
촉매, 분석, Printing & Patterning, 
Deep Learning, Big Data 
- 친환경/Energy 소재 : 연료전지, 
차세대 2차전지 
- 고기능신소재 : 차세대 무기/ 
고분자/전도성 소재, 친환경 소재 
(물, 공기 질 개선용 소재) 
- 바이오 : 조직배양, 형질전환, 
식물/작물 생리, 
유전자편집 / 분석(NGS), 
실험통계 / Machine Learning, 
Protein Engineering, 분자육종
화학/화학공학 
고분자공학 
금속/재료공학 
기계공학 
전기전자공학 
생명공학 
생명정보학 
식물생리학 
작물생리학 
유전체학 
생화학
경기도 과천시
대전광역시
서울특별시 강서구
기초소재사업본부R&D◈ 기초소재연구소 
- 고부가가치 제품 개발 : 메탈로센 촉매, 고흡수성 수지, 합성고무, ABS 등 
- 고기능성 소재 개발 : 유/무기소재 합성/중합/가공 등 
- 공정 Modeling, Simulation & Optimization 

◈ TECH센터 
- 고분자 (압출/사출) 공정 설계 및 최적화, 첨단 성형 기술 개발 
- 복합소재 성형 공정 및 물성, 복합소재 활용 부품 설계 
- 기초소재 제품 신시장 개척, 소재 및 가공기술 개발
화학/화학공학 
고분자공학 
금속/재료공학 
기계공학
경기도 과천시
경기도 오산시
대전광역시
전라남도 나주시
전라남도 여수시
전라북도 익산시
전지사업본부R&D◈ Battery연구소 
- 소재/부품 개발 : 유/무기 소재 합성 및 분석 기술, 금속/고분자 재료 물성 연구 
- 전지 선행 개발 : 고에너지밀도 전지 기술, 고출력 전지 기술, 차세대전지 설계 및 공정 기술 
- 공정 선행 연구 : 유변학, 혼합/분산, 건조, 공정 제어, 검사 자동화, 
정밀 압연, 금형 설계, 데이터 처리 
- Pack 개발 : 기계설계, CAE 
- BMS : BMS HW, SW, 부품, Safety, WPAN, AI Big data, Cloud Computing

◈ 소형전지개발센터 
- 선행기술 개발 : 고에너지밀도, 급속충전, 장수명 등의 신기술 개발 
- Cell 개발 : IT(휴대폰, 노트북), 
자동차, Drone 등에 적용되는 이차전지 셀 설계 
- Pack 개발 
1) 기구 : 사출/프레스설계, 구조 설계 및 용접 연구개발 및 검증
2) 회로 : H/W 및 S/W(알고리즘) 회로 설계 및 검증 

◈ 자동차전지개발센터 
- Cell 개발 : 전기 자동차용 리튬 이차전지 설계 및 양산 개발 
- Pack/Module 개발 : 자동차전지용 Pack 기구 및 부품 설계(CAD 활용)  
- 전장부품 개발 : 자동차전지의 전장 부품 개발 
- BMS : 회로, 전장부품, Embedded SW, BMS System 개발 
- EMC 설계 : 자동차전지 EMC 디자인 최적화 설계 

◈ ESS전지개발센터 
- Cell 개발(중대형 파우치) : 리튬 이차전지 설계 및 관련 소재, 소재 합성 및 전기화학 특성 분석 기술 
- Pack 개발 : 기구설계(사출/프레스), 구조/냉각 설계, 양산 설비 개발, 전력망 계통해석 
- 전장부품 개발 : ESS전지의 전장 부품 개발 
- BMS 회로/SW 개발 : HW/SW/FW 
개발, 제어/신호처리, SOC 개발
화학/화학공학 
고분자공학 
금속/재료공학 
기계공학 
전기전자공학 
컴퓨터공학
경기도 과천시
대전광역시
정보전자소재사업본부R&D◈ 정보전자소재연구소 
- 유기 합성, 고분자 합성, 고분자 가공, 고분자 물성, 점·접착 소재, 유/무기 복합 소재, 광학 설계, 액정 소재, 전지 재료, 유변학, 유체역학 

◈ 사업부 제품개발 
- 광학소재 (편광판), 고기능소재 (디스플레이소재, 반도체소재, 자동차소재) 제품 개발
화학/화학공학 
고분자공학 
재료공학 
기계공학
대전광역시
충청북도 청주시(오창)
충청북도 청주
재료사업부문R&D◈ 재료연구소 / 사업부 제품개발 
- Display 소재 : Color / 투명 PR용 
감광성 재료 및 분산 기술, OLED물질 
합성 및 소자 평가, 형광물질 개발, 
Polyimide 재료 및 Silicone 재료 개발 
- 전지 소재 : 전구체 / 양극재 합성 및 전지 재료 평가 
- 신규 분야 : 자동차 구조용 접착재료, 반도체 / 회로 소재, Bulk 세라믹 등 
무기재료
화학/화학공학 
무기화학 
고분자공학 
신소재공학 
재료공학 
기계공학 
전기전자공학
대전광역시
서울특별시 강서구
전라북도 익산시
충청북도 청주
생명과학사업본부R&D◈ 생명과학연구소 
- 연구 : 당뇨 및 연계질환, 항암면역 분야의 신약 개발을 위한 신규 타겟 발굴, 유기합성, 생물학적 연구, 약효 및 독성 평가, DMPK, 기반기술 연구 
- 분석 : 합성/바이오 신약 및 의약품에 대한 분석 수행 
- CMC : 합성공정 및 제형 개발, 바이오 배양 및 정제 등 공정 개발 
- 임상 : 임상설계 및 관리, 의약품 허가/등록, 학술마케팅 등
생물학 
미생물학 
면역학 
유전공학 
화학/화학공학 
고분자공학 
약학/수의학 
간호학 
통계(임상)
서울특별시 강서구
충청북도 청주시 흥덕구(오송)
지원 자격 및 절차
지원자격

1) 석사/박사 학위자 또는 2019년 2월 석사/박사 학위 취득 예정자 
(2019년 8월 이후 석/박사 학위 취득 예정자의 경우 산학장학생 모집공고로 지원하여 주시기 바랍니다.) 
- 본 공고는 경력이 인정되지 않습니다. 경력 인정을 희망하시는 경우, 경력사원 모집(수시) 공고로 지원하여 주시기 바랍니다. 
※ 박사학위 소지자 또는 경력 1년 이상의 석사학위 소지자는 경력 공고로 지원 가능 
- 석박통합과정 진행중인 자는 석사 신분으로 지원이 불가합니다.  
2) 해외여행에 결격사유가 없는 자 
3) 남성의 경우 입사일 기준 군필, 면제자 또는 전문연구요원 T/O소지(보충역) 및 전직 가능자

전형절차
  1. 서류전형
  2.  
  3. 인적성검사
  4.  
  5. 1차면접
  6.  
  7. 건강검진
  8.  
  9. 2차면접
제출방법

1) 서류접수 : LG그룹 채용사이트 (http://careers.lg.com) 內 LG화학 모집공고에서 On-line 지원 
2) 제출서류 : 채용사이트 內 입사지원서, 전공요약 발표자료(PDF본) 
※ 연구분야 입력시 공고에 첨부된 전공요약 발표자료를 표지 포함 5장 이내로 작성하여 PDF로 업로드 
- On-line 지원서 내 최종 학력 입력 시 논문/주요연구과제 항목에 업로드 
- 지원서 접수 완료 이후, 전공요약 발표자료 수정 불가 
- 본 파일은 1차 면접(전공) 시 발표자료로 사용되므로 참고하셔서 작성해 주시기 바랍니다.  
※ 졸업(예정)증명서, 성적증명서, 공인어학성적표, 자격증 등은 면접 합격자에 한하여 제출 (추후 안내) 
3) 접수기간 : 2018. 8. 28(화) ~ 2018. 9. 13(목) ☞ 최종 마감일은 오후 2시까지 지원 가능

기타사항

1) On-line 접수만 가능합니다. (우편접수, e-mail 접수 및 방문접수는 받지 않습니다.) 
2) 허위기재 사실이 발견될 시에는 즉시 불합격 혹은 입사를 취소합니다. 
3) 국가보훈대상자 및 장애인은 관련법규에 의거 우대합니다. 
4) 각 전형결과 및 통보는 e-mail을 통해 진행되오니, e-mail주소를 정확하게 기재하여 주시기 바랍니다. 
5) 기타 문의사항 발생 시 
① LG Careers Site 內 상단 “채용문의”에서 1:1 질문하기를 통해 문의 
② LG화학 기술연구원 대전.인사지원팀 (042-719-3778)으로 문의 (상담 가능 시간 : 평일 09-17시) 

※ 공고 마감일은 지원 관련 문의가 많아 답변 및 대응이 늦어질 수 있습니다. 
등록 마감 이후, 추가 등록 및 수정이 불가하므로 관련 문의는 마감 3일 전까지 요청하여 주시기 바랍니다.




#LG화학 채용홈페이지

http://apply.lg.com/app/job/RetrieveJobNoticesDetail.rpi

R plot (그래픽스) Start.

BioinformaticsAndMe





plot( ) 함수 : x 와 y 의 2개 축을 기준으로 좌표를 찍어 그리는 함수



# R로 그림을 제작 시에는 고수준(high level)가 항상 먼저 호출되어야 한다.

# plot, boxplot 등의 고수준 함수를 먼저 그려야, 아래 points, lines 등의 저수준 함수를 덧그릴 수 있다.



# x , y축 값을 지정해서 출력하기

> x <- 1:3

> y <- 4:6

> plot(x, y)



# x , y 축 한계값(x축:1~5, y축:1~10) 조정하기

> x <- 1:3

> y <- 4:6

> plot(x, y, xlim=c(1,5), ylim=c(1,10))


#  x축과 y축 제목, 그래프제목 지정해서 출력

> x <- 1:3

> y <- 4:6

> plot(x, y, xlim=c(1,5), ylim=c(1,10), xlab="x축값", ylab="y축값", main="PLOT TEST")



# 여러 조건을 추가해서 그래프 만들기

> apple <- c(100,120,160,140,150)

> plot(apple, type="o", col="red", ylim=c(0,200), axes=FALSE, ann=FALSE)

> axis(1,at=1:5, lab=c("월","화","수","목","금"))

> axis(2,ylim=c(0,200))

> title(main="APPLE", col.main="red")

> title(xlab="요일", col.lab="black")

> title(ylab="가격", col.lab="blue")




# par(mfrow=c(#,#))

# 한 화면에 여러개의 그래프를 동시에 배치

# par (mfrow =c(행의 갯수, 열의 갯수)) 

> par( mfrow=c(1,3) )

> apple <- c(10,20,25,15,20)

> plot(apple, type=“p”)

> plot(apple, type=“o")

> plot(apple, type="l")




# 여러개의 그래프를 중첩으로 그리기 
# par(new=T) 를 그래프가 추가될 때마다 사용해야 함
> par(mfrow=c(1,1))
> y1 <- c(1,2,3,4,5)
> y2 <- c(2,3,4,5,6)
> y3 <- c(3,4,5,6,7)
> plot(y1, type="s", col="red", ylim=c(1,10))
# 중복허용
> par(new=T)
> plot(y2, type="o", col="green", ylim=c(1,10))
# 중복허용
> par(new=T)
> plot(y3, type="s", col="blue", ylim=c(1,10))



# lines( )함수를 사용하여 그래프를 중첩으로 그리기

y1 <- c(1,2,3,4,5)

y2 <- c(2,3,4,5,6)

y3 <- c(3,4,5,6,7)

plot(y1, type="s", col="red", ylim=c(1,10))

lines(y2, type="o", col="green", ylim=c(1,10))

lines(y3, type="s", col="blue", ylim=c(1,10))




# 범례 추가하기

# legend (x축위치, y축위치, 내용, cex=글자크기, col=색상, pch=크기, lty=선모양)

legend(4, 9, c("Y1","Y2","Y3"), cex=0.9, col=c("red", "green", "blue"), lty=1)

legend("topright", c("Y1","Y2","Y3"), cex=0.9, col=c("red", "green", "blue"), lty=1)








R plot (그래픽스) End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R, 파일 입출력 (FILE I/O)  (0) 2018.09.11
R, T-test (R, T검정)  (0) 2018.08.29
R 회귀분석 (R regression test)  (0) 2018.08.19
R apply 함수  (0) 2018.08.15
R 상관분석 (R correlation test)  (0) 2018.08.10

[GATK] Base Quality Score Recalibration (BQSR) Start.

BioinformaticsAndMe





GATK 파이프라인의 데이터프로세싱 과정인
Base Quality Score Recalibration (염기서열점수 재보정)
을 이해해보자.


1. 왜 Base Quality Score Recalibration이 필요할까?
Base quality score는 시퀀싱 머신에서 각 base마다 발생하는 error의 추정치이다.
예를 들어, 특정 base가 Q20이라 하면, Phred-score 개념으로 99% 정확한 base라는 의미이다.
다시 말해 염기서열 100개가 있으면 1개 정도는 틀릴 수 있음을 말한다.

100개에서 1개 틀리는 거면 괜찮아 보이지 않은가?

그러나 30억 Human genome을 생각해보자. 보통 WGS는 30X 정도 되므로,

30억 * 30X = 900억개의 base call이 발생할 것이다.

1%의 error로 봤을 때, 약 9억개 base가 error를 가지고 발생한 call이라는 것이다.


많은 variant calling 알고리즘이 각 base에 할당된 quality score에 크게 의존한다.
뭐 당연할 것이다. 스코어가 높을수록 검출된 variant가 우연이 아닌 진짜일 확률에 가까워지니 말이다.
그런데 운이없게도 9억개의 error base를 가지고 variant를 뽑아낸다면, 우리는 잘못된 결론을 도출할 가능성이 높다.

그래서! 각각의 base score를 다시한번 Recalibration(재측정) 하여, 좀 더 정확한 base quality score를 부여하는 과정이
'Base Quality Score Recalibration' 이다.


아래는 base recalibration이 GATK 알고리즘의 어떤 위치에서 진행되는지 보여주는 흐름도이다.

#원래 GATK에서 Base reacalibration은 'Indel realignment' 과정 후에 진행하였는데, GATK4로 넘어가면서 'Indel realignment'가 없어졌다.

#요즘 데이터 퀄리티가 realignment할 정도로 나쁘지 않고, 파이프라인의 다른 과정에서 realignment 보정 과정을 만회할 수 있다는 것 같다.

#Indel realignment가 시간이 오래걸리는데, 굳이 할 필요가 없으니 GATK4에서 그냥 뺀 것으로 보인다.





2. BQSR(Base Quality Score Recalibration)은 어떤 과정으로 진행되나?
먼저 BQSR을 돌리기 위해 필요한 것은 Known Single Nucleic Polymorphisms (SNPs) 이다 (dbSNP).

그 이유는 BQSR algorithm에서 dbSNP에 매칭되지 않는 base는 '에러'라 가정하고 진행되기 떄문이다.


A) Finding errors

# 아래 예제를 살펴보자 (어떤 염색체 위에 있고 0~9 base까지 길이 10인 리드가 존재한다)

BQSR에서 에러라고 여겨지는 포지션은 3번과 7번이다. 3번과 7번은

1)read base가 reference와 다르고, 2)dbSNP에도 없기 때문이다.



B) Aggregating the reported phred score

위 phred score (10  11  11  20  22  22  30  20  20  10)는 아래처럼 확률로 변환시켜, 10개의 평균 확률을 구할 수 있다.

(0.1 + 0.079 + 0.079 + 0.01 + 0.006 + 0.006 + 0.001 + 0.01 + 0.01 + 0.1)/10 = 0.0401

이것을 다시 phred score로 변환하면,  phred score = -10 * log10(0.0401) ~= 14

따라서, 예제 리드의 reported phred score는 약 14이다.



C) Calculating the empirical phred score

이번에는 empirical(경험적) phred score를 구해보자.

10개의 염기 중 2개를 에러로 가정했으므로, 시퀀스는 2/10 = 0.2 정도의 에러 확률을 갖을 것이고,

(경험적이라는 의미는 실제 측정된 phred score를 이용하는 것이 아닌, 에러인지(true) 아닌지(false)를 true개수/전체개수의 빈도확률 형태로 나타낸 것)

phred score로 변환하면 -10 log10(.02) ~= 7.

따라서, empirical phred score는 약 7이다.

empirical phred score가 7 정도의 에러가 있다면, 원래 관찰된 phred score는 +7정도의 에러가 더해진 값이라 생각하자.

따라서, 각 value에 -7씩 감해주어 recalibration을 진행하자.

10-7=3, 11-7=4....



#GATK에서 위 과정은

- BaseRecalibrator로 recalibration 모델을 만들고

- ApplyBQSR로 score를 재조정하는

두 가지 command로 이루어진다.

#https://software.broadinstitute.org/gatk/documentation/tooldocs/current/org_broadinstitute_hellbender_tools_walkers_bqsr_BaseRecalibrator.php

#https://software.broadinstitute.org/gatk/documentation/tooldocs/current/org_broadinstitute_hellbender_tools_walkers_bqsr_ApplyBQSR.php





#아래 그림은 recalibration 후, 측정된 quality와 경험적으로 확인된 quality의 일치도가 높아진 모습이다.

#다시 말해, read quality의 오류가 적절하게 보정되었다는 의미.





마무리하며..

시퀀싱데이터에서 Recalibration은 quality 보정을 위해 반드시 필요한 작업이다.

특히, dbSNP과 같이 여러 Known 데이터베이스 갖춘 Human에서는 error model을 다른종보다 쉽게 제작할 수 있기에,

정확한 downstream variant calling을 위해선, recalibration 과정이 error model에 기반하여 확실히 수행되어야 한다.

recalibration 모델에 사용되는 feature들은 아래 4가지 정도가 되겠는데, 자세한 사항은 아래 사이트를 참고하자.

  • read group the read belongs to
  • quality score reported by the machine
  • machine cycle producing this base (Nth cycle = Nth base from the start of the read)
  • current base + previous base (dinucleotide)




#참고 사이트

1) https://software.broadinstitute.org/gatk/documentation/article?id=11081

2) http://zenfractal.com/2014/01/25/bqsr/






[GATK] Base Quality Score Recalibration (BQSR) End.

BioinformaticsAndMe



'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[GWAS] Imputation  (2) 2018.07.09

Genome Evolution (유전체진화) Start.

BioinformaticsAndMe






오늘은 Genome Evolution을 설명하기 위한 가설들을 살펴보겠다.

게놈의 진화는 코딩(Coding)논코딩(Noncoding)으로 나누어 설명된다.


#참고로 코딩과 논코딩이 뭔지 모른다면 아래 정도로 이해하면 된다.

ㄱ. Coding region(암호화영역) - 단백질을 만들어내는 아미노산 서열

ㄴ. Noncoding region(비암호화영역) - 코딩 부위 아닌 서열




ㄱ. Coding region의 3가지 가설

1) 기능 중심 가설 (Function-centered hypothesis)

유전자진화에 있어서 가장 중요한 변수가 바로 기능의 중요성이라는 것이다. 이는 분자진화학이 태동한 이래 지난 40여년동안 중심 가설이 되어 왔다. 이 모델에 따르면, 기능이 중요한 유전자들은 진화적으로 선택 압력을 매우 강하게 받음으로 인해, 돌연변이가 생기더라도 당대에 도태시킴으로써 다음 자손에 돌연변이 된 유전자를 전달시키지 않는다. 따라서 기능이 중요한 유전자는 덜 중요한 유전자에 비해 그 진화 속도가 매우 느리게 된다. 


아래 그림은 Essential gene(중요 유전자)들이 Non-essential gene들에 비해 진화율이 낮다는 것을 의미한다.

c 그림의 dn/ds가 낮을수록 진화율이 낮은(보존율이 높은) 것을 의미한다.



2) 발현 중심 가설 (Expression-centered hypothesis)

발현 중심 가설은 기능 중심 가설에 정면으로 도전한다. 유전자의 중요도 보다는, 오히려 유전자의 발현 정도가 진화율을 결정한다고 주장한다. 이는, 대량의 게놈 데이터를 사용한 분석에서 중요도와 진화율 간에 역의 관계가 유의하게 나오지만, 기대만큼 강하게 나오지 않는다는 관찰에 바탕을 두고 있다. 오히려 다양한 생물 종에서 관찰한 결과, 가장 유의한 차이를 보이는 것은 바로 발현 정도(expression abundance)라는 것이다. 이 가설에 의하면, 높은 수준으로 발현되는 유전자는 낮은 수준으로 발현되는 유전자에 비해 최적의 코돈(codon)을 선호하는 경향성을 나타내게 되고, 따라서 코돈의 3번째 위치의 substitution rate이 많이 발현되는 유전자의 경우에 더 느려 진다는 것이다. 뿐만 아니라, Drummond 그룹이 제창한 Mistranslation-induced misfolding (MIM) hypothesis에 의하면, 많이 발현되는 유전자는 mistranslation에 의한 misfolding으로 인해, 자연선택의 압력을 더욱 거세게 받는다. 즉, 많이 발현되는 유전자 일수록 mistranslation에 의한 deleterious effect가 더 심하게 나타날 수 있고, 따라서 이를 막는 residue의 진화율이 낮아진다고 설명한다.




3) 조직 중심 가설 (Tissue-centered hypothesis)

이 가설은, 조직에 따라 발현 되는 유전자의 종류가 달라지고, 따라서 진화율이 달라진다는 관찰에 중심을 두고 있다. 예를 들어, 뇌에서 발현되는 유전자는 간에서 발현되는 유전자, 혹은 면역계에서 발현되는 유전자들에 비하여 느리게 진화한다는 것이 보고 된 바 있다. 이 경우에, 딱히 뇌에서 발현되는 유전자가 기능적으로 더 중요하다는 증거는 없다. 과연 무엇이 뇌에서 발현되는 유전자의 진화속도를 느리게 한 것일까? 아직 정확하게 그게 무엇인지 보고 된 바 없지만, 조직 특이적인 요소가 진화적인 선택 압력과의 상호작용을 주도하고 있는 것이 아닌가 생각된다.






ㄴ. Noncoding region의 2가지 가설

1) Selection for economy (or time selection) 가설

이 이론에 따르면, 인트론은 복제를 해야 하는 세포에게 큰 부담으로 작용한다. 또한, 많은 발현을 해야 하는 유전자의 경우에는 더욱 큰 부담이다. 어쨌든, splicing에 의해 제거되어야 하므로 세포의 입장에서 보면, 높은 수준으로 발현되는 유전자의 경우 작은 크기의 인트론을 갖는 쪽으로 진화적 압력이 작용했을 것이라고 가정한다. 실제로 다양한 연구에서 발현 정도가 높은 유전자의 인트론 길이가 짧고, 또한 동시에 CDS 길이도 짧다는 보고가 있다. 하지만 이와 반대 되는 관찰로, 특히나 식물의 경우에는 많이 발현되는 유전자가 오히려 인트론이 길다는 보고도 있다. 따라서 이 모델은 여러 분석에 의한 더 많은 검증을 요한다.




2) Genome design 가설

이 모델은 위의 모델과 달리 tissue-specific 유전자의 인트론 길이가 긴 것은 발현양이 낮아서라기 보다는 발현의 조절이 좀 더 복잡하기 때문이라고 주장한다. 즉, Housekeeping 유전자에 비해서 tissue-specific 유전자는 어떤 조직에, 어떤 시간에, 얼마큼의 양이 발현되어야 하는지에 관한, 좀 더 복잡한 조절을 필요로 하고, 인트론에 존재하는 발현 조절 부위 또한 많아야 한다고 가정한다. 이러한 가설을 뒷받침해 주는 것으로, tissue-specific 유전자를 좀 더 관찰해보면, intermediate level로 발현되는 유전자들이 유전자의 길이가 좀 더 길고, conserved intron의 proportion도 더 많다는 것이 보고 된 바 있다.







#참고 문헌

1) Liao, B. Y., Scott, N. M., & Zhang, J. (2006). Impacts of gene essentiality, expression pattern, and gene compactness on the evolutionary rate of mammalian proteins. Molecular biology and evolution, 23(11), 2072-2080.

2) Barbash, S., & Sakmar, T. P. (2017). Brain gene expression signature on primate genomic sequence evolution. Scientific reports7(1), 17329.

3) Heyn, P., Kalinka, A. T., Tomancak, P., & Neugebauer, K. M. (2015). Introns and gene expression: cellular constraints, transcriptional regulation, and evolutionary consequences. Bioessays37(2), 148-154.

4) Shaul, O. (2017). How introns enhance gene expression. The international journal of biochemistry & cell biology91, 145-155.





Genome Evolution (유전체진화) End.

BioinformaticsAndMe

'Biology' 카테고리의 다른 글

박테리아 성장곡선 (Bacterial growth curve)  (0) 2019.09.21
항체 (Antibody)  (0) 2018.09.16
비교유전체학 (Comparative genomics)  (0) 2018.09.07
Gene Fusion (유전자융합)  (0) 2018.08.21
Evolution theory (진화론)  (0) 2018.08.03

SNPnexux (SNP Annotation database) Start.

BioinformaticsAndMe




웹상에서 쉽게 돌릴 수 있으면서, 다양한 SNP annotation 정보를 주는


SNPnexus를 살펴보자.



SNPnexus는 영국의 Barts Cancer Institute에서 2008년에 만들어진 SNP annotation db이다.

오랜 시간이 지났음에도 사이트 관리가 잘되고 (하지만.. 접속이 많아서인지 느리다),

계속해서 SNP 관련된 여러 정보들을 업데이트 하면서 그 명성을 이어가고 있다.


#SNPnexux 홈페이지

http://snp-nexus.org/



아래는 18년 5월에 발표된 논문으로 Precision medicine을 위해 SNPnexus가 매우 적절하다는 정도의 내용이다.

계속해서 관리가 되고 최신 흐름도 따라가고 있는 유용한 Annotation Database가 되겠다.





#SNPnexus에는 크게 10개 카테고리의 정보들이 있다.

    • Genomic Mapping
    • Gene/Protein Consequences
    • Effect on Protein Function
    • Population Data
    • Regulatory Elements
    • Conservation
    • Phenotype & Disease Association
    • Structural Variations
    • Immunotherapeutic Applications
    • Non-coding Variation Scoring

supplement 자료를 살펴보면 위 카테고리는 39개의 여러 유명한 DB로 구성되어 있다.

https://academic.oup.com/nar/article/46/W1/W109/4994954#supplementary-data





#아래는 SNPnexus가 어떤 알고리즘으로 Input SNP에 다양한 annotation을 해주는지의 흐름도이다.

#직접 사용해보면 느끼겠지만 SNPnexus는

1. 웹상에서 사용하기 굉장히 편하고,

2. 결과 파일도 정리가 잘 되어있다.





#예제 파일을 돌려보자.

- 위에는 SNPnexux 홈페이지다. 본인이 원하면 결과 파일을 메일 주소로 전달받을 수 있다.

- Batch Query(여러개 검색)가 가능하며, 저렇게 rssnp을 적어줄 수도 VCF포맷 형태로도 인풋을 복사 붙여넣거 및 업로드 가능하다.






- Input 파일을 넣었으니 이제 어떤 annotation을 보고 싶은지 선택해주면 된다.

- 어떤 population~, 어떤 regulation~, 심지어 noncoding 정보도 annotation할 수 있다.

- 본인은 내가 찾은(예제...) SNP의 질병정보를 알고 싶었기에 'Phenotype & Disease Association'을 모두(4개) 선택하였다.

- 화면에 나오지 않았지만 결과 output 형태를 txt 혹 vcf 로 할 수 있다.





- 결과파일은 위와 같이 나오는데, 하나씩 클릭해서 볼 수도 있고 다운받아 볼 수도 있다.

- 위에서 질병정보만 annotation했기 때문에 딱 그에대한 정보만 볼 수 있다.





- GAD 정보를 살펴보니 Input으로 넣은 SNP들이 어떤 질병에 속하는지 잘나와있다. 엑셀로도 받을 수 있다.

- Clinvar, COSMIC 정보는 직접 예제를 돌려 확인해보는게 좋을 듯 하다.





마무리하며..

SNPnexus가 진짜 다 괜찮은데... ㅎ

단점이 있긴 있다..

매우 ㅁ ㅐ우 느리다... 

물론 매칭할 정보가 많아서 혹은 서버상태 때문에 느린거겠지만, 뭐 어쩔수없다.

리눅스를 쓰지않고 웹상에서 하는 annotation의 한계일 듯 싶다.




SNPnexux (SNP Annotation database) End.

BioinformaticsAndMe

SK텔레콤, 마크로젠 AI 유전체 분석기술 개발 Start.

BioinformaticsAndMe





국내 최대 통신회사인 SK텔레콤과 국내 최대 유전체분석회사인 마크로젠이

인공지능(AI)를 통해 유전체 분석 기술의 도약을 꿈꾼다



https://www.bloter.net/archives/317566

관련 기사를 둘러보니 대부분 위와 같은 내용이라 생각을 정리하면서 작성한다.



두 회사는 협력하여

방대한 유전체 데이터(주로 NGS 데이터일듯 싶다..)를 머신러닝 기법에 적용해 각종 질병 가능성을 예측하고,

개인 맞춤 치료(Precision Medicine)를 제공하는 AI Genome 분석 솔루션을 제공할 계획이라 한다.


8월20일, SK텔레콤은 마크로젠과 AI 유전체 분석 솔루션 개발을 위한 업무협약을 맺었다고 밝혔다.


향후 개발 사례로 제시된 분석 솔루션 중 하나는 아래와 같다.

'기존에는 의사가 암 환자에게 통계적으로 가장 효능이 높은 항암제 순으로 약을 투여했다면,

유전체 분석을 할 경우 환자 개인에게 가장 적합한 항암제를 찾아 투여할 수 있게 된다.'


사실 유전체 연구의 오랜 숙원 중 하나가 암환자의 정밀 의료일 것이다.

하지만.. 사실 대부분 용두사미가 흔했다.

작년에 IBM 왓슨같은 경우도 '인공지능 의사가 나타났다!', '정확도가 높다!', '5대 병원에서 환자들이 분산될것이다!' 등등

HOT했으나 아래처럼 되었다.

#AI의사 가르칠 '데이터'가 없다…수조원 쏟은 왓슨도 '위기'

http://news1.kr/articles/?3404244




SKtelecom과 Macrogen

국내 각 분야의 최고에 있는 회사들이 뭉치는거라 기대가 크지만 우려가 큰 것도 사실이다.

근데 두 회사 업무협약 기사를 보고 생각한게, 그래서 암환자 데이터는 어디서 얻는다는거야? 였다.

SK텔레콤이 줄 것도 아니고, 마크로젠이 병원도 아닌데 말이다.


그런데 불과 몇일 사이로 아래와 같은 뉴스가 나왔다.

#마크로젠-분당서울대병원, 정밀의학 유전체 빅데이터 구축한다

http://news.hankyung.com/health/article?aid=201808213166f



아! 이건?! SK텔레콤-마크로젠-분당서울대병원 ?

셋이 같이하는 건가 ㅎㅎ 아님 말구..

만약에 같이하는 것이라면 아래와 같은 느낌이려나?


1) 초반에는 머신러닝이든 뭐든 하려면 일단 데이터가 있어야하니까 환자데이터를 모으는데 총력!

암환자 -> 분당서울대병원(진단, 검사의뢰) -> 마크로젠(시퀀싱, 유전체분석) -> SK텔레콤(데이터 압축 및 관리)  -> 암환자 유전체 데이터


2) 후반에는 데이터를 모았으니 학습시켜서 이것저것 모델링하고, 환자에게 적절한 치료처방이 나갈 수 있게 병원에 리포트?제공

많이모인 암환자 데이터 -> 마크로젠|SK텔레콤(기계학습, 분석모델링설계) -> 분당서울대병원(암환자 맞춤 치료*처방) -> 처방받고 정상된 환자




SK텔레콤-마크로젠-분당서울대병원 비즈니스 모델은 그냥 제 상상입니다 ㅎㅎ

웃고 넘어가주세요^^





#AI 유전체 플랫폼 관련주

- SK텔레콤, 마크로젠, 크리스탈지노믹스




SK텔레콤, 마크로젠 AI 유전체 분석기술 개발 End.

BioinformaticsAndMe

Gene Fusion (유전자융합) Start.

BioinformaticsAndMe




1. Gene Fusion 이란?

- 복수의 다른 유전자가 재조합 등에 의해 융합단백질을 코드하게 되는 것

- Fusion gene: 유전체에 별개로 존재하는 두 유전자가 융합돼 하나로 동작하는 유전자

- 삽입(Insertion), 결실(Deletion), 전좌(Translocation), 역위(Inversion) 등 염색체의 구조적 이상으로 인하여 발생


 

BCR-ABL fusion: 전좌로 두 유전자가 융합 → 만성골수성백혈병(CML)을 유발.



- 아래 그림처럼 유전자 DNA의 어떤 부위가 결합하냐에 따라 Fusion Effect는 달라질 것이다.

- 첫번째를 보면,  DNA fusion으로 5` promoter의 강렬한 자극?을 받아 빨강이 protein이 급격히 늘어났다 (Deregulation 상태).

- 나머지 부분은 키메라 단백질이 만들어질 수도, 단백질 기능을 잃을 수 있다는 예이다.





2. Fusion gene 기작

- Gene Fusion은 두 가지 mechanism 형태로 발생한다.

(A) 구조적 재배열

전좌, 역위, 결손, 삽입과 같은 염색체 구조 재배치로 Gene Fusion을 형성한다. Hybrid된 gene은 센트럴 도그마(DNA->RNA->PROTEIN) 진행.

(B) 비구조적 재배열

인접한 유전자의 번역초과(readthrough) 또는 mRNA 사이의 스플라이싱(Trans-, Cis-)으로 Fusion Transcript가 형성된다.


- Gene Fusion의 주요 메카니즘은 (B)비구조적 재배열이라 알려져 있다.





3. Fusion에 의한 생물학적 특징

- 체내에서 Fusion의 생물학적 특징을 살펴보자.

(A) Gene fusion 현상은 Cancer에세 매우 다양한 형태로 발생한다.

(B) 대부분 Fusion gene들은 단지 몇몇개의 파트너 유전자와 융합하고, 암종에 따라 다양한 Fusion Network를 갖는다.

(C) 암에서 Fusion의 빈도가 적을때도, 많을때도 있다. Fusion의 빈도는 체세포변이(somatic mutation) 빈도에 반비례한다.

(D) Fusion gene들이 주로 Kinase, DNA-binding, Chromatin-modifying 기작에 관련되어있다.


- 특정 유전자의 Fusion 빈도와 Somatic mutation 빈도가 anti-correlation이라는 점이 흥미롭다, 체세포변이가 많은 유전자는 Fusion이 적게 일어난다.

- 위에 체세포변이 관련 내용은 모든 암종 및 연구환경에서 anti-correlation 관계가 형성된다고 확신할수는 없다. 참고정도로 해두면 좋을듯 하다.





4. Fusion gene의 구조적 특징

- Fusion gene의 구조적 특징을 살펴보자.

(A) Fusion gene의 Breakpoint가 in-frame에 생기는 경향이 있어 구조 자체를 잘 보존하려고 한다.

(B) Fusion gene 자체가 domain이 몇개밖에 없지만, Fusion transcript에서는 평균보다 더많은 domain을 encoding한다.

(C) Fusion protein에서는 기존에 없던 domain recombination이 보인다.

(D) Fusion protein 구조에서의 무질서가 증가할수록 다양한 domain들의 interaction을 촉진한다.






5. Fusion gene의 발현 패턴

- Fusion gene의 발현 패턴을 살펴보자.

(A) Fusion gene의 Parent gene들은 유전자 발현이 높은 편인데, Fusion gene은 발현이 낮고, 조직특이적(tissue-specific)하다.

(B) 5` 쪽의 active promoter와 3` 쪽의 안정적인 3UTR이 페어링하면 Fusion이 아주 잘 일어날 것이다.

(C) Fusion transcript에서 실제로 protein으로 translation되는 경우가 매우 희귀하다 (대부분의 fusion이 false positive일 가능성).

(D) Cancer 관련된 Fusion이 정상세포에서 발견된다.


- NGS에서 Fusion 찾는 알고리즘이 굉장히 많은데, 위에 언급한 False positive를 최대한으로 줄여야 실제로 의미있는 Fusion gene을 찾을 수 있겠다.




6. Fusion Gene tool

- 아래는 RNAseq으로 Fusion을 찾는 대표 NGS Tool이 되겠다.

- Group에 있는 표현은 해당 툴에 적용 가능한 데이터와 알고리즘 설명이다.

- fastq 데이터가 single-end, paired-end 인지? Alignment에서 리드를 조각내는 과정이 있는지? 등

- 구체적인 방법은 'Bioinformatics Tool' 칼럼에서 다시 다룰 예정이다.




#아래 논문을 참고하였다.

1)Latysheva, N. S., & Babu, M. M. (2016). Discovering and understanding oncogenic gene fusions through data intensive computational approaches. Nucleic acids research, 44(10), 4487-4503.

2)Kumar, S., Vo, A. D., Qin, F., & Li, H. (2016). Comparative assessment of methods for the fusion transcripts detection from RNA-Seq data. Scientific reports, 6, 21597.




Gene Fusion (유전자융합) End.

BioinformaticsAndMe

'Biology' 카테고리의 다른 글

박테리아 성장곡선 (Bacterial growth curve)  (0) 2019.09.21
항체 (Antibody)  (0) 2018.09.16
비교유전체학 (Comparative genomics)  (0) 2018.09.07
Genome Evolution (유전체진화)  (0) 2018.08.24
Evolution theory (진화론)  (0) 2018.08.03

[NGS] Targeted gene panel Start.

BioinformaticsAndMe




1. Targeted gene panel (Targeted sequencing)

- Genome 중에서 타겟 영역만을 Capture할 수 있도록 Customized kit을 제작을 통해 원하는 영역만을 선택적으로 시퀀싱하는 방법.




2. Targeted sequencing flow

- Targeted sequencing이 특정 영역을 집어내 증폭하는 것이 목적이기에 Amplicon(엠플리콘) sequencing으로 진행된다.

- 타겟 시퀀싱에서 ROI(Region of Interest)를 정확하게 집어내는 primer(프라이머)를 잘 제작하는게 실험의 관건이다. 


#엠플리콘 enrichment 참조

http://bioinformaticsandme.tistory.com/66?category=808295







3. Targeted  vs  WES  vs  WGS 비교

- Targeted panel

40~400 genes, High coverage, 매우 좋은 정확도.

특정한 질병 관련 variant나 gene 동정에 특화.

평균 2,000~10,000x

높은 depths에 근거한 rare variant 동정.

관심 있는 유전체 부위 Customized design 가능.


- Whole exome(1%)

22,000 genes, Intermediate coverage, 좋은 정확도.

모든 exon을 타겟 – 원하는 유전자만 타겟 할 수 없음.

평균 100~150x

Customized design 불가


- Whole genome

All genes, lower coverage, 낮은 정확도.


#패널 디자인 자체가 어떤 새로운 변이를 발견하려는 목적보다는, 이미 알려진 유전자 변이를 확실하고 정확하게 동정하기 위함이다.





[NGS] Targeted gene panel End.

BioinformaticsAndMe

'Technology' 카테고리의 다른 글

[Genotyping] SNP Array  (0) 2019.09.25
[NGS] Epigenetic sequencing  (0) 2019.05.26
[NGS] Target Enrichment(Capture) assay  (0) 2018.08.14
[NGS] RNA sequencing  (0) 2018.08.12
[NGS] Resequencing  (0) 2018.08.12

R 회귀분석 (R regression test) Start.

BioinformaticsAndMe




# R을 이용한 단순 선형 회귀분석(simple linear regression test)을 시작해보자.


(회귀분석에 대한 개념정리는 아래의 'Statistic' 카테고리에 있으니, 먼저 선행하고 오면 좋을 듯하다..!)

http://bioinformaticsandme.tistory.com/70?category=808983





# 선형회귀모델 (Linear regression model) 제작

> age=18:29

> age

 [1] 18 19 20 21 22 23 24 25 26 27 28 29

> height= 70:81

 [1] 70 71 72 73 74 75 76 77 78 79 80 81


# 나이에 따른 키를 plot() 함수를 이용하여, 나이에 따른 키의 scatterplot

> plot(x=age, y=height)


# 선형회귀모델의 최적선 구하기
# 좋은 선형회귀 모델이란것은 예측값과 실제 값의 차이를 뜻하는 잔차(Residual error)가 작은 모델
# R에서 회귀분석은 선형모형(linear model)을 쓴다.
# lm(종속변수(결과) ~ 독립변수(원인),데이터)
> res=lm(height~age)
> abline(res)

> res

Call:

lm(formula = height ~ age)


Coefficients:

(Intercept)          age  

     64.928        0.635  


#lm() 함수로 나온 결과는 다음과 같이 해석

intercept (y 절편) : 64.928

age (독립변수의 기울기): 0.635

키 = 0.635 * 나이 + 64.928 

height = 0.635*age + 64.928





# Galton 데이터를 예제로 회귀분석을 해보자.
> install.packages("UsingR")
> library(UsingR)
> data(galton) ; str(galton)

# galton 데이터는 928개의 부모의 키와 아이의 키에 대한 자료이다.
# 이 자료에 포함되어 있는 부모의 키는 아빠의 키와 1.08*엄마의 키의 평균이다.
# 이 자료들의 분포를 살펴보기 위해 화면을 둘로 나누고 히스토그램을 그려본다.

> par(mfrow=c(1,2))
> hist(galton$child, col="blue")
> hist(galton$parent, col="blue")
> par(mfrow=c(1,1))

# 부모의 키와 자녀의 키 사이의 수학적 관계를 나타내는 공식은 회귀분석을 통하여 구할 수 있다.

> out=lm(child~parent, data=galton)
> summary(out)

Call:
lm(formula = child ~ parent, data = galton)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.8050 -1.3661  0.0487  1.6339  5.9264 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 23.94153    2.81088   8.517   <2e-16 ***
parent       0.64629    0.04114  15.711   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.239 on 926 degrees of freedom
Multiple R-squared:  0.2105, Adjusted R-squared:  0.2096 
F-statistic: 246.8 on 1 and 926 DF,  p-value: < 2.2e-16

결과의 마지막 세 줄을 살펴보자. Residual standard error(2.239인치) 라는 것은 이 모형을 사용하여, 부모키로부터 자녀키를 예측했을 때 평균 2.239인치의 오차가 생긴다는 뜻이다. Multiple R-squared가 0.210이라는 것은 이 모형은 자녀키 분산의 21.0%를 설명해준다는 뜻이다. 

# 결과를 보면 y절편(Intercept)이 23.94이고, parent의 기울기는 0.65인 것으로 나타난다.
# 즉 y=0.65x+23.94이다.
# 이를 그래프로 그려보면 다음과 같다.
> plot(child~parent,data=galton)
> abline(out,col="red")


# 위 그림을 ggplot2를 사용해 다시 그려보자.

> library(ggplot2)
> ggplot(data=galton, aes(x=parent,y=child)) +
geom_count() +
geom_smooth(method="lm")






R 회귀분석 (R regression test) End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R, T-test (R, T검정)  (0) 2018.08.29
R plot (그래픽스)  (0) 2018.08.27
R apply 함수  (0) 2018.08.15
R 상관분석 (R correlation test)  (0) 2018.08.10
막대그래프 (Barplot)  (0) 2018.08.06

+ Recent posts