<aside>
💡 머신러닝 모델링 : 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측을 할 수 있는 시스템.
</aside>
![Screen Shot 2022-01-25 at 12.19.39 AM.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/1d63bf26-864c-4ea5-b9e0-3947d0227457/Screen_Shot_2022-01-25_at_12.19.39_AM.png)
- 머신러닝 모델링 과정에서 feature vector를 이용하여 학습을 진행합니다.
- 학습(learning)의 과정은 모델마다 달라집니다.
- 문제 정의에 따라 모델도 달라집니다.
e.g. 분류 → Naive Bayes, Logistic Regression, ...
회귀 → Linear Regression, Random Forest, ...
클러스터링 → K-means, Hierarchical Clustering, ...
- 대부분의 머신러닝 문제가
예측 모델(predictive model)
을 사용합니다.
- 예측 모델은 대부분 분류/회귀 문제를 풀게 됩니다.
앞에서 사용한 Iris 예시를 다시 가져와서 설명해봅니다.
![Screen Shot 2022-01-19 at 4.47.12 PM.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/0c9c6e4b-ac0f-4e73-9e9d-ee23c6eb3d51/Screen_Shot_2022-01-19_at_4.47.12_PM.png)
예측 모델 학습
- [RECAP] Iris dataset을 3개의 Species로 구분하는 문제인 “분류(Classification)”로 정의하였습니다.
- 분류 문제를 풀기 위해서 간단한 분류 모델인, Linear Classifier를 사용해보도록 하겠습니다.
![그림 1. 성능이 좋은 분류기
Source : http://stephanie-w.github.io/brainscribble/classification-algorithms-on-iris-dataset.html](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/7a49807d-e8f7-4b6b-a412-4e821445f693/Screen_Shot_2022-01-25_at_12.56.01_AM.png)
그림 1. 성능이 좋은 분류기
Source : http://stephanie-w.github.io/brainscribble/classification-algorithms-on-iris-dataset.html
- 위 그림은 Linear Classifier를 이용해 4차원 feature space에 표현되는 iris dataset을 3가지로 분류한 모습입니다.
경계선(decision boundary)
를 기준으로 데이터가 분류되고 있습니다.
- 이러한 구분선을 찾아주는 방식이 Linear Classifier라는 모델입니다. (사실은 구분선보다 더 고차원적인 개념인 hyperplane입니다)
- 이렇게 구분선을 찾기 위해서는 선을 결정하는
parameter(또는 weight)
를 찾아주면 됩니다.
(예를 들어, $y = ax + b$ 라는 식을 생각해보면 $a$와 $b$를 정하면 직선 하나가 결정됩니다.)
- 즉, Linear Classifier로 Iris dataset을 3개의 Species로 분류하는 문제는 적절한 구분선 2개를 찾아주는 것이 됩니다. 그 구분선은 적당한 숫자를 찾는 문제가 됩니다. 그래서 이 숫자들을 찾는 것이 목표입니다!