차원의 저주 (Curse of dimensionality) Start
BioinformaticsAndMe
차원의 저주 (Curse of dimensionality)
: 수학적 공간 차원(=변수 개수)이 늘어나면서, 문제 계산법이 지수적으로 커지는 상황
: 차원이 높아질수록 데이터 사이의 거리가 멀어지고, 빈공간이 증가하는 공간의 성김 현상(Sparsity)을 보임
*KNN(K-Nearest Neighbors) 분류 알고리즘에서 흔하게 발생하는 문제
(좌측 그림) - 1차원에 10개의 데이터가 존재 (10^1=10)
(중앙 그림) - 2차원에 100개의 데이터가 존재 (10^2=100)
(우측 그림) - 3차원에 1,000개의 데이터가 존재 (10^3=1,000)
→ '8'의 위치를 설명하는 상황에서, 차원이 커질수록 설명 공간이 지수적으로 늘어남
→ Feature가 많아질수록, 동일한 데이터를 설명하는 빈 공간이 증가함
→ 차원의 저주로 인해, 알고리즘 모델링 과정에서 저장 공간과 처리 시간이 불필요하게 증가됨 (성능 저하)
차원의 저주 피하기
: 차원을 줄이는 알고리즘 사용
ㄱ) PCA(Principal Component Analysis)
ㄴ) LDA(Linear Discriminant Analysis)
ㄷ) LLE(Locally Linear Embedding)
ㄹ) MDS(Multidimensional Scaling)
ㅁ) Isomap
ㅅ) t-SNE(t-Distributed Stochastic Neighbor Embedding)
#Reference
1) https://medium.com/diogo-menezes-borges/give-me-the-antidote-for-the-curse-of-dimensionality-b14bce4bf4d2
2) https://zetawiki.com/wiki/차원의_저주
3) https://www.kdnuggets.com/2017/04/must-know-curse-dimensionality.html
4) https://datapedia.tistory.com/15
차원의 저주 (Curse of dimensionality) End
BioinformaticsAndMe
'Machine Learning' 카테고리의 다른 글
[TensorFlow1.0] Cancer classification using gene expression (0) | 2019.11.20 |
---|---|
[TensorFlow1.0] Multiple Linear Regression (0) | 2019.11.11 |
Feature selection vs Feature extraction (0) | 2019.10.29 |
K-NN(최근접이웃) 알고리즘 (0) | 2019.10.23 |
랜덤포레스트(Random Forest) (1) | 2019.10.17 |