<aside>
💡 모델링(Modeling) : 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정.
</aside>
- 근본적인 개념은 수학적인 모델과 통계적인 모델의 개념에서 나온다.
Mathematical model - Wikipedia
Statistical model - Wikipedia
- 데이터 사이언스에 사용하는 모델은 통계 모델 그 자체일수도 있고, 데이터를 분석하는 어떤 시스템 그 자체일수도 있다.
- 모델은 하려고 하는 task에 따라 여러가지 이름으로 불린다.
e.g. 예측 모델, 생성 모델, 요약 모델, ...
- 데이터 사이언스는 주로 예측 모델이 사용된다.
- 예측 모델이란, 주어진 데이터의 패턴을 파악해서 미래의 데이터의 패턴을 예측할 수 있는 시스템을 말한다.
- 모델링에는 통계적인 모델링과 머신러닝(Machine Learning) 방법이 주로 사용된다.
Statistical Modeling
<aside>
💡 통계적 모델링 : 데이터가 정의되는 공간(S, sample space)와 그 공간에서의 확률 분포(P, probability distribution on S)가 있다고 할 때, 어떤 데이터는 S에서의 P를 통해서 만들어졌다고 가정하고 데이터를 잘 기술하는 P를 찾는 과정. - from Wiki
</aside>
- 보통 P는 parameter들에 대해서 정의된다.
- parameter란 어떤 통계 집단을 기술하는 측정된 값이다.
e.g. 평균(mean, $\mu$), 표준편차(standard deviation, $\sigma$) ...
- 적절한 parameter를 찾게 되면 잘 기술하는 P를 찾을 수 있다.
- 이러한 parameter를 찾아가는 과정이라고 볼 수 있다.
Machine Learning Modeling
<aside>
💡 머신러닝 모델링 : 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측(또는 추론)을 하는 과정.
</aside>