1. Learn
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 사기 탐지

Connected

Exercise

데이터 시각화하기

이전 연습 문제에서 사기(fraud)와 정상(non-fraud) 관측치의 비율이 매우 낮다는 것을 확인했어요. 이에 대해서는 다음 영상에서 설명할 재표본추출(re-sampling) 같은 방법으로 대응할 수 있어요.

이번 연습에서는 데이터를 살펴보고 사기와 정상의 비율을 시각화해 보겠습니다. 사기 분석에서는 어떤 변경을 하기 전에 먼저 데이터를 확인하는 것이 항상 좋은 출발점이에요.

또한 동료들과 이야기할 때, 그림으로 보여 주면 데이터가 심하게 불균형하다는 점을 분명하게 전달할 수 있어요. 데이터셋 df에서 사기와 정상 데이터 포인트의 비율을 시각화하는 그래프를 만들어 봅시다.

prep_data() 함수와 matplotlib.pyplot의 별칭 plt는 이미 작업 공간에 로드되어 있습니다.

Instructions

100 XP
  • 주어진 특성 집합 X와 레이블 y를 산점도로 보기 좋게 그려 주는 plot_data(X, y) 함수를 정의하세요. 이 부분은 이미 준비되어 있습니다.

  • 데이터셋 df에 prep_data() 함수를 적용해 특성 집합 X와 레이블 y를 만드세요.

  • 새로 얻은 X와 y를 사용해 plot_data() 함수를 실행하고 결과를 시각화하세요.