Feature selection vs Feature extraction

2019. 10. 29. 14:09

Feature selection vs Feature extraction Start

BioinformaticsAndMe

1. Feature selection (특징 선택)

: Feature selection(=Variable selection)은 관련없거나 중복되는 Feature들을 필터링하고 간결한 subset을 생성하는 과정

*Feature(특징) - 데이터 모델의 모든 입력 변수

: 대규모 변수를 가진 데이터에서 Feature selection은 차원 감소에 효과적

→머신 러닝 알고리즘의 Performance 향상

: Variance Thresholds(비지도학습) 또는 Genetic Algorithms(지도학습)에 사용됨

2. Feature extraction (특징 추출)

: Feature extraction은 기존 Feature들의 조합으로 유용한 Feature들을 새롭게 생성하는 과정

: 고차원의 원본 Feature 공간을 저차원의 새로운 Feature 공간으로 투영함

: PCA(비지도학습), LDA(지도학습)에 사용됨

3. Feature selection vs Feature extraction

: 데이터의 차원을 줄이기 위해, Feature selection(특징 선택) 및 Feature extraction(특징 추출) 과정을 진행할 수 있음

*Feature selection - 기존 Feature들의 부분 집합(하위 집단)을 유지

*Feature extraction - 기존 Feature에 기반하여 새로운 Feature들을 생성

: 수많은 변수가 있는 데이터셋에서, 적절한 Feature selection과 Feature extraction으로 오버피팅 방지 가능

#Reference

1) https://medium.com/@mehulved1503/feature-selection-and-feature-extraction-in-machine-learning-an-overview-57891c595e96

2) http://parnec.nuaa.edu.cn/jliu/FeatureExtraction.htm

3) https://benthamopen.com/FULLTEXT/TOBIOIJ-11-117

4) https://elitedatascience.com/dimensionality-reduction-algorithms#feature-selection

5) https://www.researchgate.net/publication/315807942_Affect_Measurement_A_Roadmap_Through_Approaches_Technologies_and_Data_Analysis

6) http://terryum.io/korean/2016/05/05/FeatureSelection_KOR/

Feature selection vs Feature extraction End

BioinformaticsAndMe

저작자표시 (새창열림)

[TensorFlow1.0] Multiple Linear Regression (0)	2019.11.11
차원의 저주 (Curse of dimensionality) (0)	2019.11.04
K-NN(최근접이웃) 알고리즘 (0)	2019.10.23
랜덤포레스트(Random Forest) (1)	2019.10.17
[TensorFlow] Logistic Regression (0)	2019.10.09

BioinformaticsAndMe