Membuat fitur baru
Feature engineering juga mencakup pembuatan fitur baru. Membuat fitur baru penting karena model bergantung pada fitur tersebut untuk akurasi prediksi. Pada latihan ini, Anda akan memeriksa properti tiga kolom yang berupa bilangan bulat dalam data tetapi sebenarnya merepresentasikan nilai kategorikal. Ketiga kolom tersebut adalah: search_engine_type, product_type, dan advertiser_type. Anda akan membuat fitur hitung untuk 3 kolom tersebut, serta untuk device_id dan site_id. Fitur hitung ini merepresentasikan jumlah klik untuk masing-masing kolom tersebut dan akan digunakan nanti untuk prediksi.
Modul pandas tersedia sebagai pd di ruang kerja Anda dan DataFrame contoh telah dimuat sebagai df.
Latihan ini adalah bagian dari kursus
Memprediksi CTR dengan Machine Learning di Python
Petunjuk latihan
- Cetak jumlah total nilai dan jumlah nilai unik untuk setiap fitur dalam daftar
feature_list. - Buat fitur baru dari fitur dalam
new_feature_listdengan menghitung jumlah klik untuk setiap fitur menggunakan.transform().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Get counts of total and unique values for given features
feature_list = ["search_engine_type", "product_type", "advertiser_type"]
for feature in feature_list:
print(df[feature].____)
print(df[feature].____)
# Define new features as counts
new_feature_list = ['device_id', 'site_id'] + feature_list
for new_feature in new_feature_list:
df[new_feature + '_count'] = df.____(
new_feature)['click'].____("count")
print(df.head(5))