<aside>
💡 머신러닝 모델링 : 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측을 할 수 있는 시스템.
</aside>

- 머신러닝 모델링 과정에서 feature vector를 이용하여 학습을 진행합니다.
- 학습(learning)의 과정은 모델마다 달라집니다.
- 문제 정의에 따라 모델도 달라집니다.
e.g. 분류 → Naive Bayes, Logistic Regression, ...
회귀 → Linear Regression, Random Forest, ...
클러스터링 → K-means, Hierarchical Clustering, ...
- 대부분의 머신러닝 문제가
예측 모델(predictive model)을 사용합니다.
- 예측 모델은 대부분 분류/회귀 문제를 풀게 됩니다.
앞에서 사용한 Iris 예시를 다시 가져와서 설명해봅니다.

예측 모델 학습
- [RECAP] Iris dataset을 3개의 Species로 구분하는 문제인 “분류(Classification)”로 정의하였습니다.
- 분류 문제를 풀기 위해서 간단한 분류 모델인, Linear Classifier를 사용해보도록 하겠습니다.

그림 1. 성능이 좋은 분류기
Source : http://stephanie-w.github.io/brainscribble/classification-algorithms-on-iris-dataset.html
- 위 그림은 Linear Classifier를 이용해 4차원 feature space에 표현되는 iris dataset을 3가지로 분류한 모습입니다.
경계선(decision boundary)를 기준으로 데이터가 분류되고 있습니다.
- 이러한 구분선을 찾아주는 방식이 Linear Classifier라는 모델입니다. (사실은 구분선보다 더 고차원적인 개념인 hyperplane입니다)
- 이렇게 구분선을 찾기 위해서는 선을 결정하는
parameter(또는 weight)를 찾아주면 됩니다.
(예를 들어, $y = ax + b$ 라는 식을 생각해보면 $a$와 $b$를 정하면 직선 하나가 결정됩니다.)
- 즉, Linear Classifier로 Iris dataset을 3개의 Species로 분류하는 문제는 적절한 구분선 2개를 찾아주는 것이 됩니다. 그 구분선은 적당한 숫자를 찾는 문제가 됩니다. 그래서 이 숫자들을 찾는 것이 목표입니다!