Feature selection vs Feature extraction Start
BioinformaticsAndMe
1. Feature selection (특징 선택)
: Feature selection(=Variable selection)은 관련없거나 중복되는 Feature들을 필터링하고 간결한 subset을 생성하는 과정
*Feature(특징) - 데이터 모델의 모든 입력 변수
: 대규모 변수를 가진 데이터에서 Feature selection은 차원 감소에 효과적
→머신 러닝 알고리즘의 Performance 향상
: Variance Thresholds(비지도학습) 또는 Genetic Algorithms(지도학습)에 사용됨
2. Feature extraction (특징 추출)
: Feature extraction은 기존 Feature들의 조합으로 유용한 Feature들을 새롭게 생성하는 과정
: 고차원의 원본 Feature 공간을 저차원의 새로운 Feature 공간으로 투영함
: PCA(비지도학습), LDA(지도학습)에 사용됨
3. Feature selection vs Feature extraction
: 데이터의 차원을 줄이기 위해, Feature selection(특징 선택) 및 Feature extraction(특징 추출) 과정을 진행할 수 있음
*Feature selection - 기존 Feature들의 부분 집합(하위 집단)을 유지
*Feature extraction - 기존 Feature에 기반하여 새로운 Feature들을 생성
: 수많은 변수가 있는 데이터셋에서, 적절한 Feature selection과 Feature extraction으로 오버피팅 방지 가능
#Reference
1) https://medium.com/@mehulved1503/feature-selection-and-feature-extraction-in-machine-learning-an-overview-57891c595e96
2) http://parnec.nuaa.edu.cn/jliu/FeatureExtraction.htm
3) https://benthamopen.com/FULLTEXT/TOBIOIJ-11-117
4) https://elitedatascience.com/dimensionality-reduction-algorithms#feature-selection
5) https://www.researchgate.net/publication/315807942_Affect_Measurement_A_Roadmap_Through_Approaches_Technologies_and_Data_Analysis
6) http://terryum.io/korean/2016/05/05/FeatureSelection_KOR/
Feature selection vs Feature extraction End
BioinformaticsAndMe
'Machine Learning' 카테고리의 다른 글
[TensorFlow1.0] Multiple Linear Regression (0) | 2019.11.11 |
---|---|
차원의 저주 (Curse of dimensionality) (0) | 2019.11.04 |
K-NN(최근접이웃) 알고리즘 (0) | 2019.10.23 |
랜덤포레스트(Random Forest) (0) | 2019.10.17 |
[TensorFlow] Logistic Regression (0) | 2019.10.09 |