Pisahkan kolom numerik dan kategorikal
Pada latihan sebelumnya, Anda telah menjelajahi karakteristik himpunan data dan siap melakukan pra-pemrosesan data. Sekarang Anda akan memisahkan variabel kategorikal dan numerik dari DataFrame telco_raw dengan ambang jumlah nilai unik kategorikal vs. numerik yang disesuaikan. Modul pandas telah dimuat untuk Anda sebagai pd.
Himpunan data churn telekomunikasi mentah telco_raw telah dimuat untuk Anda sebagai DataFrame pandas. Anda dapat membiasakan diri dengan himpunan data tersebut dengan mengeksplorasinya di konsol.
Latihan ini adalah bagian dari kursus
Machine Learning untuk Pemasaran dengan Python
Petunjuk latihan
- Simpan nama kolom
customerIDdanChurn. - Tetapkan ke
categoricalnama-nama kolom yang memiliki kurang dari 5 nilai unik. - Hapus
targetdari list. - Tetapkan ke
numericalsemua nama kolom yang tidak termasuk dalamcustid,target, dancategorical.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Store customerID and Churn column names
custid = ['___']
target = ['___']
# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()
# Remove target from the list of categorical variables
categorical.remove(___[0])
# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]