R plot (그래픽스) Start.

BioinformaticsAndMe





plot( ) 함수 : x 와 y 의 2개 축을 기준으로 좌표를 찍어 그리는 함수



# R로 그림을 제작 시에는 고수준(high level)가 항상 먼저 호출되어야 한다.

# plot, boxplot 등의 고수준 함수를 먼저 그려야, 아래 points, lines 등의 저수준 함수를 덧그릴 수 있다.



# x , y축 값을 지정해서 출력하기

> x <- 1:3

> y <- 4:6

> plot(x, y)



# x , y 축 한계값(x축:1~5, y축:1~10) 조정하기

> x <- 1:3

> y <- 4:6

> plot(x, y, xlim=c(1,5), ylim=c(1,10))


#  x축과 y축 제목, 그래프제목 지정해서 출력

> x <- 1:3

> y <- 4:6

> plot(x, y, xlim=c(1,5), ylim=c(1,10), xlab="x축값", ylab="y축값", main="PLOT TEST")



# 여러 조건을 추가해서 그래프 만들기

> apple <- c(100,120,160,140,150)

> plot(apple, type="o", col="red", ylim=c(0,200), axes=FALSE, ann=FALSE)

> axis(1,at=1:5, lab=c("월","화","수","목","금"))

> axis(2,ylim=c(0,200))

> title(main="APPLE", col.main="red")

> title(xlab="요일", col.lab="black")

> title(ylab="가격", col.lab="blue")




# par(mfrow=c(#,#))

# 한 화면에 여러개의 그래프를 동시에 배치

# par (mfrow =c(행의 갯수, 열의 갯수)) 

> par( mfrow=c(1,3) )

> apple <- c(10,20,25,15,20)

> plot(apple, type=“p”)

> plot(apple, type=“o")

> plot(apple, type="l")




# 여러개의 그래프를 중첩으로 그리기 
# par(new=T) 를 그래프가 추가될 때마다 사용해야 함
> par(mfrow=c(1,1))
> y1 <- c(1,2,3,4,5)
> y2 <- c(2,3,4,5,6)
> y3 <- c(3,4,5,6,7)
> plot(y1, type="s", col="red", ylim=c(1,10))
# 중복허용
> par(new=T)
> plot(y2, type="o", col="green", ylim=c(1,10))
# 중복허용
> par(new=T)
> plot(y3, type="s", col="blue", ylim=c(1,10))



# lines( )함수를 사용하여 그래프를 중첩으로 그리기

y1 <- c(1,2,3,4,5)

y2 <- c(2,3,4,5,6)

y3 <- c(3,4,5,6,7)

plot(y1, type="s", col="red", ylim=c(1,10))

lines(y2, type="o", col="green", ylim=c(1,10))

lines(y3, type="s", col="blue", ylim=c(1,10))




# 범례 추가하기

# legend (x축위치, y축위치, 내용, cex=글자크기, col=색상, pch=크기, lty=선모양)

legend(4, 9, c("Y1","Y2","Y3"), cex=0.9, col=c("red", "green", "blue"), lty=1)

legend("topright", c("Y1","Y2","Y3"), cex=0.9, col=c("red", "green", "blue"), lty=1)








R plot (그래픽스) End.

BioinformaticsAndMe

'R' 카테고리의 다른 글

R, 파일 입출력 (FILE I/O)  (0) 2018.09.11
R, T-test (R, T검정)  (0) 2018.08.29
R 회귀분석 (R regression test)  (0) 2018.08.19
R apply 함수  (0) 2018.08.15
R 상관분석 (R correlation test)  (0) 2018.08.10

[GATK] Base Quality Score Recalibration (BQSR) Start.

BioinformaticsAndMe





GATK 파이프라인의 데이터프로세싱 과정인
Base Quality Score Recalibration (염기서열점수 재보정)
을 이해해보자.


1. 왜 Base Quality Score Recalibration이 필요할까?
Base quality score는 시퀀싱 머신에서 각 base마다 발생하는 error의 추정치이다.
예를 들어, 특정 base가 Q20이라 하면, Phred-score 개념으로 99% 정확한 base라는 의미이다.
다시 말해 염기서열 100개가 있으면 1개 정도는 틀릴 수 있음을 말한다.

100개에서 1개 틀리는 거면 괜찮아 보이지 않은가?

그러나 30억 Human genome을 생각해보자. 보통 WGS는 30X 정도 되므로,

30억 * 30X = 900억개의 base call이 발생할 것이다.

1%의 error로 봤을 때, 약 9억개 base가 error를 가지고 발생한 call이라는 것이다.


많은 variant calling 알고리즘이 각 base에 할당된 quality score에 크게 의존한다.
뭐 당연할 것이다. 스코어가 높을수록 검출된 variant가 우연이 아닌 진짜일 확률에 가까워지니 말이다.
그런데 운이없게도 9억개의 error base를 가지고 variant를 뽑아낸다면, 우리는 잘못된 결론을 도출할 가능성이 높다.

그래서! 각각의 base score를 다시한번 Recalibration(재측정) 하여, 좀 더 정확한 base quality score를 부여하는 과정이
'Base Quality Score Recalibration' 이다.


아래는 base recalibration이 GATK 알고리즘의 어떤 위치에서 진행되는지 보여주는 흐름도이다.

#원래 GATK에서 Base reacalibration은 'Indel realignment' 과정 후에 진행하였는데, GATK4로 넘어가면서 'Indel realignment'가 없어졌다.

#요즘 데이터 퀄리티가 realignment할 정도로 나쁘지 않고, 파이프라인의 다른 과정에서 realignment 보정 과정을 만회할 수 있다는 것 같다.

#Indel realignment가 시간이 오래걸리는데, 굳이 할 필요가 없으니 GATK4에서 그냥 뺀 것으로 보인다.





2. BQSR(Base Quality Score Recalibration)은 어떤 과정으로 진행되나?
먼저 BQSR을 돌리기 위해 필요한 것은 Known Single Nucleic Polymorphisms (SNPs) 이다 (dbSNP).

그 이유는 BQSR algorithm에서 dbSNP에 매칭되지 않는 base는 '에러'라 가정하고 진행되기 떄문이다.


A) Finding errors

# 아래 예제를 살펴보자 (어떤 염색체 위에 있고 0~9 base까지 길이 10인 리드가 존재한다)

BQSR에서 에러라고 여겨지는 포지션은 3번과 7번이다. 3번과 7번은

1)read base가 reference와 다르고, 2)dbSNP에도 없기 때문이다.



B) Aggregating the reported phred score

위 phred score (10  11  11  20  22  22  30  20  20  10)는 아래처럼 확률로 변환시켜, 10개의 평균 확률을 구할 수 있다.

(0.1 + 0.079 + 0.079 + 0.01 + 0.006 + 0.006 + 0.001 + 0.01 + 0.01 + 0.1)/10 = 0.0401

이것을 다시 phred score로 변환하면,  phred score = -10 * log10(0.0401) ~= 14

따라서, 예제 리드의 reported phred score는 약 14이다.



C) Calculating the empirical phred score

이번에는 empirical(경험적) phred score를 구해보자.

10개의 염기 중 2개를 에러로 가정했으므로, 시퀀스는 2/10 = 0.2 정도의 에러 확률을 갖을 것이고,

(경험적이라는 의미는 실제 측정된 phred score를 이용하는 것이 아닌, 에러인지(true) 아닌지(false)를 true개수/전체개수의 빈도확률 형태로 나타낸 것)

phred score로 변환하면 -10 log10(.02) ~= 7.

따라서, empirical phred score는 약 7이다.

empirical phred score가 7 정도의 에러가 있다면, 원래 관찰된 phred score는 +7정도의 에러가 더해진 값이라 생각하자.

따라서, 각 value에 -7씩 감해주어 recalibration을 진행하자.

10-7=3, 11-7=4....



#GATK에서 위 과정은

- BaseRecalibrator로 recalibration 모델을 만들고

- ApplyBQSR로 score를 재조정하는

두 가지 command로 이루어진다.

#https://software.broadinstitute.org/gatk/documentation/tooldocs/current/org_broadinstitute_hellbender_tools_walkers_bqsr_BaseRecalibrator.php

#https://software.broadinstitute.org/gatk/documentation/tooldocs/current/org_broadinstitute_hellbender_tools_walkers_bqsr_ApplyBQSR.php





#아래 그림은 recalibration 후, 측정된 quality와 경험적으로 확인된 quality의 일치도가 높아진 모습이다.

#다시 말해, read quality의 오류가 적절하게 보정되었다는 의미.





마무리하며..

시퀀싱데이터에서 Recalibration은 quality 보정을 위해 반드시 필요한 작업이다.

특히, dbSNP과 같이 여러 Known 데이터베이스 갖춘 Human에서는 error model을 다른종보다 쉽게 제작할 수 있기에,

정확한 downstream variant calling을 위해선, recalibration 과정이 error model에 기반하여 확실히 수행되어야 한다.

recalibration 모델에 사용되는 feature들은 아래 4가지 정도가 되겠는데, 자세한 사항은 아래 사이트를 참고하자.

  • read group the read belongs to
  • quality score reported by the machine
  • machine cycle producing this base (Nth cycle = Nth base from the start of the read)
  • current base + previous base (dinucleotide)




#참고 사이트

1) https://software.broadinstitute.org/gatk/documentation/article?id=11081

2) http://zenfractal.com/2014/01/25/bqsr/






[GATK] Base Quality Score Recalibration (BQSR) End.

BioinformaticsAndMe



'Algorithm' 카테고리의 다른 글

[GATK] HaplotypeCaller 알고리즘  (0) 2018.08.13
[PCA] 주성분분석 3  (0) 2018.08.02
[PCA] 주성분분석 2  (0) 2018.08.01
[PCA] 주성분분석 1  (0) 2018.07.25
[GWAS] Imputation  (2) 2018.07.09

Genome Evolution (유전체진화) Start.

BioinformaticsAndMe






오늘은 Genome Evolution을 설명하기 위한 가설들을 살펴보겠다.

게놈의 진화는 코딩(Coding)논코딩(Noncoding)으로 나누어 설명된다.


#참고로 코딩과 논코딩이 뭔지 모른다면 아래 정도로 이해하면 된다.

ㄱ. Coding region(암호화영역) - 단백질을 만들어내는 아미노산 서열

ㄴ. Noncoding region(비암호화영역) - 코딩 부위 아닌 서열




ㄱ. Coding region의 3가지 가설

1) 기능 중심 가설 (Function-centered hypothesis)

유전자진화에 있어서 가장 중요한 변수가 바로 기능의 중요성이라는 것이다. 이는 분자진화학이 태동한 이래 지난 40여년동안 중심 가설이 되어 왔다. 이 모델에 따르면, 기능이 중요한 유전자들은 진화적으로 선택 압력을 매우 강하게 받음으로 인해, 돌연변이가 생기더라도 당대에 도태시킴으로써 다음 자손에 돌연변이 된 유전자를 전달시키지 않는다. 따라서 기능이 중요한 유전자는 덜 중요한 유전자에 비해 그 진화 속도가 매우 느리게 된다. 


아래 그림은 Essential gene(중요 유전자)들이 Non-essential gene들에 비해 진화율이 낮다는 것을 의미한다.

c 그림의 dn/ds가 낮을수록 진화율이 낮은(보존율이 높은) 것을 의미한다.



2) 발현 중심 가설 (Expression-centered hypothesis)

발현 중심 가설은 기능 중심 가설에 정면으로 도전한다. 유전자의 중요도 보다는, 오히려 유전자의 발현 정도가 진화율을 결정한다고 주장한다. 이는, 대량의 게놈 데이터를 사용한 분석에서 중요도와 진화율 간에 역의 관계가 유의하게 나오지만, 기대만큼 강하게 나오지 않는다는 관찰에 바탕을 두고 있다. 오히려 다양한 생물 종에서 관찰한 결과, 가장 유의한 차이를 보이는 것은 바로 발현 정도(expression abundance)라는 것이다. 이 가설에 의하면, 높은 수준으로 발현되는 유전자는 낮은 수준으로 발현되는 유전자에 비해 최적의 코돈(codon)을 선호하는 경향성을 나타내게 되고, 따라서 코돈의 3번째 위치의 substitution rate이 많이 발현되는 유전자의 경우에 더 느려 진다는 것이다. 뿐만 아니라, Drummond 그룹이 제창한 Mistranslation-induced misfolding (MIM) hypothesis에 의하면, 많이 발현되는 유전자는 mistranslation에 의한 misfolding으로 인해, 자연선택의 압력을 더욱 거세게 받는다. 즉, 많이 발현되는 유전자 일수록 mistranslation에 의한 deleterious effect가 더 심하게 나타날 수 있고, 따라서 이를 막는 residue의 진화율이 낮아진다고 설명한다.




3) 조직 중심 가설 (Tissue-centered hypothesis)

이 가설은, 조직에 따라 발현 되는 유전자의 종류가 달라지고, 따라서 진화율이 달라진다는 관찰에 중심을 두고 있다. 예를 들어, 뇌에서 발현되는 유전자는 간에서 발현되는 유전자, 혹은 면역계에서 발현되는 유전자들에 비하여 느리게 진화한다는 것이 보고 된 바 있다. 이 경우에, 딱히 뇌에서 발현되는 유전자가 기능적으로 더 중요하다는 증거는 없다. 과연 무엇이 뇌에서 발현되는 유전자의 진화속도를 느리게 한 것일까? 아직 정확하게 그게 무엇인지 보고 된 바 없지만, 조직 특이적인 요소가 진화적인 선택 압력과의 상호작용을 주도하고 있는 것이 아닌가 생각된다.






ㄴ. Noncoding region의 2가지 가설

1) Selection for economy (or time selection) 가설

이 이론에 따르면, 인트론은 복제를 해야 하는 세포에게 큰 부담으로 작용한다. 또한, 많은 발현을 해야 하는 유전자의 경우에는 더욱 큰 부담이다. 어쨌든, splicing에 의해 제거되어야 하므로 세포의 입장에서 보면, 높은 수준으로 발현되는 유전자의 경우 작은 크기의 인트론을 갖는 쪽으로 진화적 압력이 작용했을 것이라고 가정한다. 실제로 다양한 연구에서 발현 정도가 높은 유전자의 인트론 길이가 짧고, 또한 동시에 CDS 길이도 짧다는 보고가 있다. 하지만 이와 반대 되는 관찰로, 특히나 식물의 경우에는 많이 발현되는 유전자가 오히려 인트론이 길다는 보고도 있다. 따라서 이 모델은 여러 분석에 의한 더 많은 검증을 요한다.




2) Genome design 가설

이 모델은 위의 모델과 달리 tissue-specific 유전자의 인트론 길이가 긴 것은 발현양이 낮아서라기 보다는 발현의 조절이 좀 더 복잡하기 때문이라고 주장한다. 즉, Housekeeping 유전자에 비해서 tissue-specific 유전자는 어떤 조직에, 어떤 시간에, 얼마큼의 양이 발현되어야 하는지에 관한, 좀 더 복잡한 조절을 필요로 하고, 인트론에 존재하는 발현 조절 부위 또한 많아야 한다고 가정한다. 이러한 가설을 뒷받침해 주는 것으로, tissue-specific 유전자를 좀 더 관찰해보면, intermediate level로 발현되는 유전자들이 유전자의 길이가 좀 더 길고, conserved intron의 proportion도 더 많다는 것이 보고 된 바 있다.







#참고 문헌

1) Liao, B. Y., Scott, N. M., & Zhang, J. (2006). Impacts of gene essentiality, expression pattern, and gene compactness on the evolutionary rate of mammalian proteins. Molecular biology and evolution, 23(11), 2072-2080.

2) Barbash, S., & Sakmar, T. P. (2017). Brain gene expression signature on primate genomic sequence evolution. Scientific reports7(1), 17329.

3) Heyn, P., Kalinka, A. T., Tomancak, P., & Neugebauer, K. M. (2015). Introns and gene expression: cellular constraints, transcriptional regulation, and evolutionary consequences. Bioessays37(2), 148-154.

4) Shaul, O. (2017). How introns enhance gene expression. The international journal of biochemistry & cell biology91, 145-155.





Genome Evolution (유전체진화) End.

BioinformaticsAndMe

'Biology' 카테고리의 다른 글

박테리아 성장곡선 (Bacterial growth curve)  (0) 2019.09.21
항체 (Antibody)  (0) 2018.09.16
비교유전체학 (Comparative genomics)  (0) 2018.09.07
Gene Fusion (유전자융합)  (0) 2018.08.21
Evolution theory (진화론)  (0) 2018.08.03

SNPnexux (SNP Annotation database) Start.

BioinformaticsAndMe




웹상에서 쉽게 돌릴 수 있으면서, 다양한 SNP annotation 정보를 주는


SNPnexus를 살펴보자.



SNPnexus는 영국의 Barts Cancer Institute에서 2008년에 만들어진 SNP annotation db이다.

오랜 시간이 지났음에도 사이트 관리가 잘되고 (하지만.. 접속이 많아서인지 느리다),

계속해서 SNP 관련된 여러 정보들을 업데이트 하면서 그 명성을 이어가고 있다.


#SNPnexux 홈페이지

http://snp-nexus.org/



아래는 18년 5월에 발표된 논문으로 Precision medicine을 위해 SNPnexus가 매우 적절하다는 정도의 내용이다.

계속해서 관리가 되고 최신 흐름도 따라가고 있는 유용한 Annotation Database가 되겠다.





#SNPnexus에는 크게 10개 카테고리의 정보들이 있다.

    • Genomic Mapping
    • Gene/Protein Consequences
    • Effect on Protein Function
    • Population Data
    • Regulatory Elements
    • Conservation
    • Phenotype & Disease Association
    • Structural Variations
    • Immunotherapeutic Applications
    • Non-coding Variation Scoring

supplement 자료를 살펴보면 위 카테고리는 39개의 여러 유명한 DB로 구성되어 있다.

https://academic.oup.com/nar/article/46/W1/W109/4994954#supplementary-data





#아래는 SNPnexus가 어떤 알고리즘으로 Input SNP에 다양한 annotation을 해주는지의 흐름도이다.

#직접 사용해보면 느끼겠지만 SNPnexus는

1. 웹상에서 사용하기 굉장히 편하고,

2. 결과 파일도 정리가 잘 되어있다.





#예제 파일을 돌려보자.

- 위에는 SNPnexux 홈페이지다. 본인이 원하면 결과 파일을 메일 주소로 전달받을 수 있다.

- Batch Query(여러개 검색)가 가능하며, 저렇게 rssnp을 적어줄 수도 VCF포맷 형태로도 인풋을 복사 붙여넣거 및 업로드 가능하다.






- Input 파일을 넣었으니 이제 어떤 annotation을 보고 싶은지 선택해주면 된다.

- 어떤 population~, 어떤 regulation~, 심지어 noncoding 정보도 annotation할 수 있다.

- 본인은 내가 찾은(예제...) SNP의 질병정보를 알고 싶었기에 'Phenotype & Disease Association'을 모두(4개) 선택하였다.

- 화면에 나오지 않았지만 결과 output 형태를 txt 혹 vcf 로 할 수 있다.





- 결과파일은 위와 같이 나오는데, 하나씩 클릭해서 볼 수도 있고 다운받아 볼 수도 있다.

- 위에서 질병정보만 annotation했기 때문에 딱 그에대한 정보만 볼 수 있다.





- GAD 정보를 살펴보니 Input으로 넣은 SNP들이 어떤 질병에 속하는지 잘나와있다. 엑셀로도 받을 수 있다.

- Clinvar, COSMIC 정보는 직접 예제를 돌려 확인해보는게 좋을 듯 하다.





마무리하며..

SNPnexus가 진짜 다 괜찮은데... ㅎ

단점이 있긴 있다..

매우 ㅁ ㅐ우 느리다... 

물론 매칭할 정보가 많아서 혹은 서버상태 때문에 느린거겠지만, 뭐 어쩔수없다.

리눅스를 쓰지않고 웹상에서 하는 annotation의 한계일 듯 싶다.




SNPnexux (SNP Annotation database) End.

BioinformaticsAndMe

SK텔레콤, 마크로젠 AI 유전체 분석기술 개발 Start.

BioinformaticsAndMe





국내 최대 통신회사인 SK텔레콤과 국내 최대 유전체분석회사인 마크로젠이

인공지능(AI)를 통해 유전체 분석 기술의 도약을 꿈꾼다



https://www.bloter.net/archives/317566

관련 기사를 둘러보니 대부분 위와 같은 내용이라 생각을 정리하면서 작성한다.



두 회사는 협력하여

방대한 유전체 데이터(주로 NGS 데이터일듯 싶다..)를 머신러닝 기법에 적용해 각종 질병 가능성을 예측하고,

개인 맞춤 치료(Precision Medicine)를 제공하는 AI Genome 분석 솔루션을 제공할 계획이라 한다.


8월20일, SK텔레콤은 마크로젠과 AI 유전체 분석 솔루션 개발을 위한 업무협약을 맺었다고 밝혔다.


향후 개발 사례로 제시된 분석 솔루션 중 하나는 아래와 같다.

'기존에는 의사가 암 환자에게 통계적으로 가장 효능이 높은 항암제 순으로 약을 투여했다면,

유전체 분석을 할 경우 환자 개인에게 가장 적합한 항암제를 찾아 투여할 수 있게 된다.'


사실 유전체 연구의 오랜 숙원 중 하나가 암환자의 정밀 의료일 것이다.

하지만.. 사실 대부분 용두사미가 흔했다.

작년에 IBM 왓슨같은 경우도 '인공지능 의사가 나타났다!', '정확도가 높다!', '5대 병원에서 환자들이 분산될것이다!' 등등

HOT했으나 아래처럼 되었다.

#AI의사 가르칠 '데이터'가 없다…수조원 쏟은 왓슨도 '위기'

http://news1.kr/articles/?3404244




SKtelecom과 Macrogen

국내 각 분야의 최고에 있는 회사들이 뭉치는거라 기대가 크지만 우려가 큰 것도 사실이다.

근데 두 회사 업무협약 기사를 보고 생각한게, 그래서 암환자 데이터는 어디서 얻는다는거야? 였다.

SK텔레콤이 줄 것도 아니고, 마크로젠이 병원도 아닌데 말이다.


그런데 불과 몇일 사이로 아래와 같은 뉴스가 나왔다.

#마크로젠-분당서울대병원, 정밀의학 유전체 빅데이터 구축한다

http://news.hankyung.com/health/article?aid=201808213166f



아! 이건?! SK텔레콤-마크로젠-분당서울대병원 ?

셋이 같이하는 건가 ㅎㅎ 아님 말구..

만약에 같이하는 것이라면 아래와 같은 느낌이려나?


1) 초반에는 머신러닝이든 뭐든 하려면 일단 데이터가 있어야하니까 환자데이터를 모으는데 총력!

암환자 -> 분당서울대병원(진단, 검사의뢰) -> 마크로젠(시퀀싱, 유전체분석) -> SK텔레콤(데이터 압축 및 관리)  -> 암환자 유전체 데이터


2) 후반에는 데이터를 모았으니 학습시켜서 이것저것 모델링하고, 환자에게 적절한 치료처방이 나갈 수 있게 병원에 리포트?제공

많이모인 암환자 데이터 -> 마크로젠|SK텔레콤(기계학습, 분석모델링설계) -> 분당서울대병원(암환자 맞춤 치료*처방) -> 처방받고 정상된 환자




SK텔레콤-마크로젠-분당서울대병원 비즈니스 모델은 그냥 제 상상입니다 ㅎㅎ

웃고 넘어가주세요^^





#AI 유전체 플랫폼 관련주

- SK텔레콤, 마크로젠, 크리스탈지노믹스




SK텔레콤, 마크로젠 AI 유전체 분석기술 개발 End.

BioinformaticsAndMe

Gene Fusion (유전자융합) Start.

BioinformaticsAndMe




1. Gene Fusion 이란?

- 복수의 다른 유전자가 재조합 등에 의해 융합단백질을 코드하게 되는 것

- Fusion gene: 유전체에 별개로 존재하는 두 유전자가 융합돼 하나로 동작하는 유전자

- 삽입(Insertion), 결실(Deletion), 전좌(Translocation), 역위(Inversion) 등 염색체의 구조적 이상으로 인하여 발생


 

BCR-ABL fusion: 전좌로 두 유전자가 융합 → 만성골수성백혈병(CML)을 유발.



- 아래 그림처럼 유전자 DNA의 어떤 부위가 결합하냐에 따라 Fusion Effect는 달라질 것이다.

- 첫번째를 보면,  DNA fusion으로 5` promoter의 강렬한 자극?을 받아 빨강이 protein이 급격히 늘어났다 (Deregulation 상태).

- 나머지 부분은 키메라 단백질이 만들어질 수도, 단백질 기능을 잃을 수 있다는 예이다.





2. Fusion gene 기작

- Gene Fusion은 두 가지 mechanism 형태로 발생한다.

(A) 구조적 재배열

전좌, 역위, 결손, 삽입과 같은 염색체 구조 재배치로 Gene Fusion을 형성한다. Hybrid된 gene은 센트럴 도그마(DNA->RNA->PROTEIN) 진행.

(B) 비구조적 재배열

인접한 유전자의 번역초과(readthrough) 또는 mRNA 사이의 스플라이싱(Trans-, Cis-)으로 Fusion Transcript가 형성된다.


- Gene Fusion의 주요 메카니즘은 (B)비구조적 재배열이라 알려져 있다.





3. Fusion에 의한 생물학적 특징

- 체내에서 Fusion의 생물학적 특징을 살펴보자.

(A) Gene fusion 현상은 Cancer에세 매우 다양한 형태로 발생한다.

(B) 대부분 Fusion gene들은 단지 몇몇개의 파트너 유전자와 융합하고, 암종에 따라 다양한 Fusion Network를 갖는다.

(C) 암에서 Fusion의 빈도가 적을때도, 많을때도 있다. Fusion의 빈도는 체세포변이(somatic mutation) 빈도에 반비례한다.

(D) Fusion gene들이 주로 Kinase, DNA-binding, Chromatin-modifying 기작에 관련되어있다.


- 특정 유전자의 Fusion 빈도와 Somatic mutation 빈도가 anti-correlation이라는 점이 흥미롭다, 체세포변이가 많은 유전자는 Fusion이 적게 일어난다.

- 위에 체세포변이 관련 내용은 모든 암종 및 연구환경에서 anti-correlation 관계가 형성된다고 확신할수는 없다. 참고정도로 해두면 좋을듯 하다.





4. Fusion gene의 구조적 특징

- Fusion gene의 구조적 특징을 살펴보자.

(A) Fusion gene의 Breakpoint가 in-frame에 생기는 경향이 있어 구조 자체를 잘 보존하려고 한다.

(B) Fusion gene 자체가 domain이 몇개밖에 없지만, Fusion transcript에서는 평균보다 더많은 domain을 encoding한다.

(C) Fusion protein에서는 기존에 없던 domain recombination이 보인다.

(D) Fusion protein 구조에서의 무질서가 증가할수록 다양한 domain들의 interaction을 촉진한다.






5. Fusion gene의 발현 패턴

- Fusion gene의 발현 패턴을 살펴보자.

(A) Fusion gene의 Parent gene들은 유전자 발현이 높은 편인데, Fusion gene은 발현이 낮고, 조직특이적(tissue-specific)하다.

(B) 5` 쪽의 active promoter와 3` 쪽의 안정적인 3UTR이 페어링하면 Fusion이 아주 잘 일어날 것이다.

(C) Fusion transcript에서 실제로 protein으로 translation되는 경우가 매우 희귀하다 (대부분의 fusion이 false positive일 가능성).

(D) Cancer 관련된 Fusion이 정상세포에서 발견된다.


- NGS에서 Fusion 찾는 알고리즘이 굉장히 많은데, 위에 언급한 False positive를 최대한으로 줄여야 실제로 의미있는 Fusion gene을 찾을 수 있겠다.




6. Fusion Gene tool

- 아래는 RNAseq으로 Fusion을 찾는 대표 NGS Tool이 되겠다.

- Group에 있는 표현은 해당 툴에 적용 가능한 데이터와 알고리즘 설명이다.

- fastq 데이터가 single-end, paired-end 인지? Alignment에서 리드를 조각내는 과정이 있는지? 등

- 구체적인 방법은 'Bioinformatics Tool' 칼럼에서 다시 다룰 예정이다.




#아래 논문을 참고하였다.

1)Latysheva, N. S., & Babu, M. M. (2016). Discovering and understanding oncogenic gene fusions through data intensive computational approaches. Nucleic acids research, 44(10), 4487-4503.

2)Kumar, S., Vo, A. D., Qin, F., & Li, H. (2016). Comparative assessment of methods for the fusion transcripts detection from RNA-Seq data. Scientific reports, 6, 21597.




Gene Fusion (유전자융합) End.

BioinformaticsAndMe

'Biology' 카테고리의 다른 글

박테리아 성장곡선 (Bacterial growth curve)  (0) 2019.09.21
항체 (Antibody)  (0) 2018.09.16
비교유전체학 (Comparative genomics)  (0) 2018.09.07
Genome Evolution (유전체진화)  (0) 2018.08.24
Evolution theory (진화론)  (0) 2018.08.03

+ Recent posts