데이터 시각화하기

이전 연습 문제에서 사기(fraud)와 정상(non-fraud) 관측치의 비율이 매우 낮다는 것을 확인했어요. 이에 대해서는 다음 영상에서 설명할 재표본추출(re-sampling) 같은 방법으로 대응할 수 있어요.

이번 연습에서는 데이터를 살펴보고 사기와 정상의 비율을 시각화해 보겠습니다. 사기 분석에서는 어떤 변경을 하기 전에 먼저 데이터를 확인하는 것이 항상 좋은 출발점이에요.

또한 동료들과 이야기할 때, 그림으로 보여 주면 데이터가 심하게 불균형하다는 점을 분명하게 전달할 수 있어요. 데이터셋 df에서 사기와 정상 데이터 포인트의 비율을 시각화하는 그래프를 만들어 봅시다.