pathview (pathway 분석) Start.

BioinformaticsAndMe



요즘은 프로그램을 굳이 배우지 않더라도 쉽게 pathway 분석을 할 수 있다.

오늘 소개하는 R 패키지인 'pathview'는 어렵지 않게

expression data(ex. RNA-seq 데이터)를 시각화할 수 있다.

예제 파일을 다운받아 따라해보자.

RNA_seq_example.txt



https://bioconductor.org/packages/release/bioc/html/pathview.html




1. 패키지 설치, 실습 데이터 로딩

# 패키지 설치
source("https://bioconductor.org/biocLite.R")
biocLite("pathview")
biocLite("gage")
biocLite("gageData")
library(pathview)
library(gage)
library(gageData)

# 실습 데이터 로딩
setwd("C:/Users/Documents")
res = read.delim("RNA_seq_example.txt", header=T, row.names = 1)
dim(res) ; View(res)



2. KEGG pathway 데이터 로딩

# Human KEGG pathway data
data(kegg.sets.hs)
str(kegg.sets.hs)

# Only signaling and metabolism만 담음
data(sigmet.idx.hs)
kegg.sets.hs = kegg.sets.hs[sigmet.idx.hs]
head(kegg.sets.hs, 3)



3. 실습데이터 정리

dim(res)
foldchanges = res$log2FoldChange

# entrez gene 혹은 ensembl gene 으로 이름 붙이기
# entrez gene 으로 이름 붙이기
names(foldchanges) = res$entrez
# ensembl gene 로 이름 붙이기
names(foldchanges) = rownames(res)

head(foldchanges)
head(kegg.sets.hs, 3)



4. GAGE (Generally Applicable Gene-set Enrichment) analysis

# Get the results
keggres = gage(foldchanges, gsets=kegg.sets.hs, same.dir=T)
# T : UP, DOWN 각각에 특화된 ; F : UP, DOWN 모두 포함
str(keggres)
View(keggres)
# Look at both up (greater), down (less), and statatistics.
lapply(keggres, head)


5. 발현 변화 positive 5개, negative 5개 pathway

# Get the pathways
# 보고자 하는 발현 변화 (positive or negative 선택)
# positive
keggrespathways = rownames(lapply(keggres, head, 5)$greater)
# negative
keggrespathways = rownames(lapply(keggres, head, 5)$less)

# Get the IDs
keggresids = substr(keggrespathways, start=1, stop=8)
keggresids



6. 발현 변화 positive 5개, negative 5개 pathway

# Define plotting function
plot_pathway = function(pid) pathview(gene.data=foldchanges, pathway.id=pid, species="hsa")
# hsa03060 Protein export
plot_pathway("hsa03060")

#오른쪽 상단에 있는 range에서 볼 수 있듯이, 발현이 상대적으로 높을수록 red, 낮을수록 green 색을 보인다.

#PROTEIN EXPORT 패스웨이에 관여하는 유전자들이 구체적으로 어떤 위치에서 발현을 조절하는지 시각적으로 쉽게 확인 가능하다.

#Range와 Color는 모두 조절 가능하다.





7. 발현 변화 positive 5개의 pathway visualization

tmp = sapply(keggresids, plot_pathway)

#Expression 분석 결과는 해석하기 쉬우면서도 매우 어렵다....  

  A. 리소좀 Pathway의 발현이 전반적으로 증가했다 

  B. 전반적으로 발현이 증가했지만, 패스웨이 내 transport vesicle 기작들의 발현은 전반적으로 낮아졌다.

  C. 보통.. 발현 분석 결과 전체를 해석하기 보단, 본인이 연구하는 영역에 집중하여 합리적 근거로 해석한다.




pathview에서는 kegg pathway를 사용하므로

인간을 포함하여 mouse, yeast 등 여러 종을 기반으로 발현 분석해 볼 수 있겠다.





pathview (패스웨이 분석) End.

BioinformaticsAndMe





'R' 카테고리의 다른 글

while, for (R 반복문)  (0) 2019.09.16
R, as.Date (날짜 변환)  (0) 2019.06.03
R, 파일 입출력 (FILE I/O)  (0) 2018.09.11
R, T-test (R, T검정)  (0) 2018.08.29
R plot (그래픽스)  (0) 2018.08.27

+ Recent posts