1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 마케팅용 Machine Learning

Connected

연습 문제

이탈률 살펴보고 데이터 분할하기

1장에서 본 개요를 바탕으로, 이번 레슨에서는 churn 예측을 위한 Machine Learning에 필요한 데이터 준비를 더 깊이 다져 보겠습니다. 먼저 이탈 분포를 살펴보고, 모델링에 들어가기 전에 데이터를 학습용과 테스트용으로 나눕니다. 이 단계에서는 이탈률이 어떻게 분포하는지 이해하고, 학습 세트에 모델을 학습시킨 뒤 사용하지 않은 테스트 데이터에서 성능을 측정할 수 있도록 전처리합니다.

통신사 데이터셋은 telcom이라는 이름의 pandas DataFrame으로 로드되어 있어요. 타깃 변수 열 이름은 Churn입니다.

지침

100 XP
  • Churn 열의 고유 값을 출력하세요.
  • 각 이탈 그룹의 비율 크기를 계산하세요.
  • 학습/테스트로 데이터를 분할하는 함수를 가져오세요.
  • 데이터를 학습 75%, 테스트 25%로 분할하세요.