Chapter.03 Machine Learning Workflow-04. 피처 엔지니어링 | Notion

<aside> 💡 feature engineering : 분석에 사용할 데이터를 feature vector로 가공하는 작업. 머신러닝 모델 성능에 직접적인 영향을 준다.

</aside>

Screen Shot 2022-01-22 at 7.46.53 PM.png

데이터 마트까지 구성된 데이터를 input vector라고 부릅니다. (row 단위, 정형화된 수치들)
이 input vector를 머신러닝 모델에 사용할 feature vector로 바꾸는 작업이 feature engineering입니다.
feature vector란 input vector에서 머신러닝 모델이 봐야할 특징(feature)을 정의한 수치값들입니다.
feature engineering에 따라 머신러닝 모델의 성능이 굉장히 크게 변할 수 있습니다.
feature engineering을 할 때 체크해야하는 사항들을 중점적으로 확인을 해야합니다.
feature vector가 표현되는 공간을 feature space라고 합니다.

차원의 저주 (Curse of Dimensionality)

차원의 저주 문제는 머신러닝 모델이 고차원 공간에서 데이터의 패턴을 잘 파악하지 못하는 문제를 말합니다.
feature space의 차원이 큰 경우, 거리 함수가 제대로 작동하지 않는 문제가 발생합니다.
또한 공간이 sparse해짐에 따라, 저차원 데이터에서 패턴을 파악하는 것보다 고차원 데이터에서 패턴을 파악하는데 더 많은 데이터가 필요합니다.

Source : https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/

Source : https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/

위의 자료는 1차원 공간에서 전체 feature space의 20%를 표현하기 위해서 필요한 데이터가 2, 3차원으로 올라갈 수록 exponentially 커진다는 것을 설명하고 있습니다.

상관관계 분석

상관관계 분석이란, feature들간의 연관성을 파악하거나, target value와 feature들간의 연관성을 파악하는 것을 말합니다.
이 때, Pearson Correlation Coefficient를 사용합니다.