<aside>
💡 데이터 수집 : 정의한 데이터를 실제로 가져와서 Data Mart를 구축하는 작업.
</aside>
![Screen Shot 2022-01-19 at 3.26.15 PM.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/399fa0f6-29cf-4479-a582-0876716cbe36/Screen_Shot_2022-01-19_at_3.26.15_PM.png)
- 분석 데이터 정의에 맞는 데이터를 직접 가져옵니다. (수집) → 직접 수집을 해야하는 경우라면, Web Crawling을 사용!
- 데이터가 Data Warehouse에 없는 경우라면, Data Engineer에게 요청을 합니다.
- 어떤 데이터를 가져오느냐에 따라 분석 결과의 품질이 결정됩니다. → Data Quality
- 정의한 데이터는 실제 저장되어 있는 데이터와 1:1 매칭이 되지 않을 수 있습니다. → 데이터 정합성 평가
- 다양한 source에 있는 데이터를 가져와서 합쳐야할 수도 있습니다.
- 모든 작업이 끝나면 정의한 분석 도구에 맞게 포맷을 변경해줍니다.
데이터 마트 생성
- 이미 Data Warehouse에 정의가 되어있다면, SQL(이나 다른 BI 솔루션)을 사용해서 필요한 데이터를 가져옵니다.
- 여러 source들에 있다면 하면, 필요하다고 생각되는 데이터들을 일단 모두 가져옵니다.
- 이 데이터가 원하는 형태로 합쳐지는지 테스트하는 것을 “데이터 정합성 평가” 라고 합니다.
- 분석에 필요한 데이터가 어느 기간에 수집된 데이터인지, 어떤 기관에서 수집한 데이터인지, 정의한 특징을 모두 포함하고 있는지를 확인합니다. (sanity check)
- Iris dataset으로 Data Mart를 만드려면?
- 만약에, DB에 데이터가 없다면 → 직접 수집. (나가서 채집, 웹에 있다면 크롤링, ...)
- 만약에, DB에 데이터가 있다면 → 앞에서 정의한 특징들이 포함되어 있는지 확인하고, 해당 데이터셋을 가져옵니다.
데이터 정합성 평가
- 데이터를 합칠 때 생기는 이슈들을 체크하는 과정.
- 아래 예시를 보고, 이 두 개의 테이블을 합친다면(JOIN operation) 어떤 것들을 체크해야할까요?
- user_id, time column이 존재하는가 → O
- row가 정의된 단위(unit)이 일치하는가 → X
: time unit이 다르다! (yymmddhhmmss VS yymmddhh0000) → 초 단위를 시간(hour) 단위로 합쳐줍니다.
![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3e5ab63a-f107-4901-8c2b-1915248f5aee/Untitled.png)