Chapter.03 Machine Learning Workflow-05. 머신러닝 모델링

<aside> 💡 머신러닝 모델링 : 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측을 할 수 있는 시스템.

</aside>

Screen Shot 2022-01-25 at 12.19.39 AM.png

머신러닝 모델링 과정에서 feature vector를 이용하여 학습을 진행합니다.
학습(learning)의 과정은 모델마다 달라집니다.
문제 정의에 따라 모델도 달라집니다. e.g. 분류 → Naive Bayes, Logistic Regression, ... 회귀 → Linear Regression, Random Forest, ... 클러스터링 → K-means, Hierarchical Clustering, ...
대부분의 머신러닝 문제가 예측 모델(predictive model)을 사용합니다.
예측 모델은 대부분 분류/회귀 문제를 풀게 됩니다.

앞에서 사용한 Iris 예시를 다시 가져와서 설명해봅니다.

Screen Shot 2022-01-19 at 4.47.12 PM.png

그림 1. 성능이 좋은 분류기
Source : http://stephanie-w.github.io/brainscribble/classification-algorithms-on-iris-dataset.html

위 그림은 Linear Classifier를 이용해 4차원 feature space에 표현되는 iris dataset을 3가지로 분류한 모습입니다.
경계선(decision boundary)를 기준으로 데이터가 분류되고 있습니다.
이러한 구분선을 찾아주는 방식이 Linear Classifier라는 모델입니다. (사실은 구분선보다 더 고차원적인 개념인 hyperplane입니다)
이렇게 구분선을 찾기 위해서는 선을 결정하는 parameter(또는 weight)를 찾아주면 됩니다. (예를 들어, $y = ax + b$ 라는 식을 생각해보면 $a$와 $b$를 정하면 직선 하나가 결정됩니다.)
즉, Linear Classifier로 Iris dataset을 3개의 Species로 분류하는 문제는 적절한 구분선 2개를 찾아주는 것이 됩니다. 그 구분선은 적당한 숫자를 찾는 문제가 됩니다. 그래서 이 숫자들을 찾는 것이 목표입니다!