Eksplorasi tingkat churn dan pemisahan data
Melanjutkan ikhtisar yang Anda lihat di Bab 1, pada pelajaran ini Anda akan menggali lebih dalam persiapan data yang diperlukan untuk menggunakan Machine Learning dalam melakukan prediksi churn. Anda akan mengeksplorasi distribusi churn dan membagi data menjadi data latih dan uji sebelum melanjutkan ke pemodelan. Pada langkah ini, Anda akan memahami bagaimana tingkat churn terdistribusi, serta melakukan prapemrosesan data agar Anda dapat membangun model pada himpunan data latih dan mengukur kinerjanya pada data uji yang tidak digunakan.
Himpunan data telekomunikasi telah dimuat sebagai DataFrame pandas bernama telcom. Kolom variabel target bernama Churn.
Latihan ini adalah bagian dari kursus
Machine Learning untuk Pemasaran dengan Python
Petunjuk latihan
- Cetak nilai unik pada kolom
Churn. - Hitung ukuran rasio untuk tiap kelompok churn.
- Impor fungsi untuk membagi data menjadi latih dan uji.
- Bagi data menjadi 75% latih dan 25% uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the unique Churn values
print(___(telcom['Churn']))
# Calculate the ratio size of each churn group
telcom.___(['Churn']).size() / telcom.shape[0] * 100
# Import the function for splitting data to train and test
from sklearn.model_selection import ___
# Split the data into train and test
train, test = ___(telcom, test_size = .25)