Mendisretkan semua variabel
Alih-alih mendisretkan variabel kontinu satu per satu, akan lebih mudah jika dilakukan secara otomatis. Untuk mendapatkan daftar semua kolom di Python, Anda dapat menggunakan
variables = basetable.columns
Hanya variabel kontinu yang perlu didisretkan. Anda dapat memverifikasi apakah suatu variabel perlu didisretkan dengan memeriksa apakah variabel tersebut memiliki lebih dari jumlah nilai berbeda yang telah ditentukan.
Latihan ini adalah bagian dari kursus
Pengantar Predictive Analytics dengan Python
Petunjuk latihan
- Buat daftar
variablesyang berisi semua nama kolom dari basetable. - Buat perulangan yang memeriksa semua variabel dalam daftar
variables. - Lengkapi pernyataan
ifsehingga hanya variabel dengan lebih dari 5 nilai berbeda yang didisretkan. - Kelompokkan variabel kontinu ke dalam 10 bin menggunakan metode
qcut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the columns in the original basetable
print(basetable.columns)
# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")
# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
if len(basetable.groupby(____))>____:
new_variable = "disc_" + variable
basetable[new_variable] = pd.qcut(basetable[____], ____)
# Print the columns in the new basetable
print(basetable.columns)