<aside>
💡 feature engineering : 분석에 사용할 데이터를 feature vector로 가공하는 작업. 머신러닝 모델 성능에 직접적인 영향을 준다.
</aside>
![Screen Shot 2022-01-22 at 7.46.53 PM.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/85df87a7-9657-472a-9a0b-99245e235d9b/Screen_Shot_2022-01-22_at_7.46.53_PM.png)
- 데이터 마트까지 구성된 데이터를
input vector
라고 부릅니다. (row 단위, 정형화된 수치들)
- 이 input vector를 머신러닝 모델에 사용할 feature vector로 바꾸는 작업이 feature engineering입니다.
- feature vector란 input vector에서 머신러닝 모델이 봐야할 특징(feature)을 정의한 수치값들입니다.
- feature engineering에 따라 머신러닝 모델의 성능이 굉장히 크게 변할 수 있습니다.
- feature engineering을 할 때 체크해야하는 사항들을 중점적으로 확인을 해야합니다.
- feature vector가 표현되는 공간을
feature space
라고 합니다.
차원의 저주 (Curse of Dimensionality)
- 차원의 저주 문제는 머신러닝 모델이 고차원 공간에서 데이터의 패턴을 잘 파악하지 못하는 문제를 말합니다.
- feature space의 차원이 큰 경우, 거리 함수가 제대로 작동하지 않는 문제가 발생합니다.
- 또한 공간이 sparse해짐에 따라, 저차원 데이터에서 패턴을 파악하는 것보다 고차원 데이터에서 패턴을 파악하는데 더 많은 데이터가 필요합니다.
![Source : https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/ac0ebf6b-1540-44cd-882a-bb525a3ba47c/Screen_Shot_2022-01-22_at_7.55.50_PM.png)
Source : https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/
- 위의 자료는 1차원 공간에서 전체 feature space의 20%를 표현하기 위해서 필요한 데이터가 2, 3차원으로 올라갈 수록
exponentially
커진다는 것을 설명하고 있습니다.
상관관계 분석