K-means clustering (R 군집분석) Start
BioinformaticsAndMe
K-means clustering
: K-평균 클러스터링은 주어진 데이터를 K개의 클러스터로 묶는 알고리즘
: 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 작동
: 자율 학습의 일종
: Label이 없는 입력 데이터에 Label을 표지하는 역할을 수행
K-means clustering 과정
1) 새로운 변수 설정
iris2 <- iris
2) 5번째 컬럼 제거
iris2$Species <- NULL
3) kmeans 알고리즘으로 클러스터링 3개 생성
kmeans.result <- kmeans(iris2, 3)
4) 실제 클러스터링 결과 점검을 위해, 테이블을 생성하여 비교
table(iris$Species, kmeans.result$cluster)
5) 시각화
plot(iris2[c("Sepal.Length", "Sepal.Width")], col = kmeans.result$cluster, pch=15)
6) 각 클러스터 중심 그리기 (centers : 각 클러스터별로 컬럼의 평균값을 나타낸 것)
points(kmeans.result$centers[,c("Sepal.Length", "Sepal.Width")], col= 1:3, pch=8, cex=4)
#Reference
1) http://pypr.sourceforge.net/kmeans.html
2) http://ropatics.com/data-mining/r-and-data-mining/RDM-Clustering.html
K-means clustering (R 군집분석) End
BioinformaticsAndMe
'R' 카테고리의 다른 글
Hierarchical clustering (R 계층적 군집화) (0) | 2019.10.04 |
---|---|
K-medoids clustering (R PAM) (0) | 2019.09.30 |
if, else, else if, ifelse (R 조건문) (0) | 2019.09.16 |
while, for (R 반복문) (0) | 2019.09.16 |
R, as.Date (날짜 변환) (0) | 2019.06.03 |