MulaiMulai sekarang secara gratis

Mengonversi variabel kategorikal

Karena sklearn memerlukan fitur numerik sebagai masukan untuk model, penting untuk mengenkode variabel kategorikal menjadi numerik. Teknik yang paling umum, disebut "one-hot encoding", sederhana tetapi memiliki konsumsi memori tinggi. Untuk itu, Anda akan menggunakan teknik hashing, yang memetakan masukan kategorikal menjadi numerik, untuk setiap kolom kategorikal.

Modul pandas tersedia sebagai pd di ruang kerja Anda dan DataFrame contoh telah dimuat sebagai df.

Latihan ini adalah bagian dari kursus

Memprediksi CTR dengan Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Pilih kolom kategorikal dengan memfilter berdasarkan tipe data.
  • Terapkan fungsi hash pada masing-masing kolom kategorikal.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Edit dan Jalankan Kode