<aside>
💡 EDA(Exploratory Data Analysis) : 데이터에서 분석에 필요한 여러가지 통계량을 계산하고, 시각화를 통해서 확인하는 작업.
</aside>
- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 데이터와 친해지는 과정입니다.
- 분석을 하면서 데이터에서 확인하고 싶은 정보들을 확인하는 과정입니다.
- 정답처럼 규칙처럼 정해진 프로세스가 따로 없고, 분석가들마다 방법론이 조금씩 다릅니다.
- 어떤 데이터를 사용하느냐에 따라서 다양한 방법론이 존재합니다.
- 데이터에 대해서 많이 알수록, EDA도 잘할 수 있습니다. (domain knowledge)
- 나만의 EDA process를 만들 수록, Data Scientist로서의 역량이 갖추어 진다고 할 수 있습니다.
설명의 편의를 위해서 Iris dataset이 모듈2까지 거쳐서 다음과 같이 정의되었다고 가정해봅니다.
데이터 크기 확인
- 주어진 Iris dataset의 크기는 150 rows, 6 columns 입니다. (150 x 6)
- pandas를 기준으로 메모리 사용량은 대략 7.2KB 입니다.
데이터 분포 확인
- Petal Length VS Petal Width