Mulai sekarangMulai gratis

Mengonversi variabel kategorikal

Karena sklearn memerlukan fitur numerik sebagai masukan untuk model, penting untuk mengenkode variabel kategorikal menjadi numerik. Teknik yang paling umum, disebut "one-hot encoding", sederhana tetapi memiliki konsumsi memori tinggi. Untuk itu, Anda akan menggunakan teknik hashing, yang memetakan masukan kategorikal menjadi numerik, untuk setiap kolom kategorikal.

Modul pandas tersedia sebagai pd di ruang kerja Anda dan DataFrame contoh telah dimuat sebagai df.

Latihan ini merupakan bagian dari kursus

Memprediksi CTR dengan Machine Learning di Python

Lihat Kursus

Instruksi latihan

  • Pilih kolom kategorikal dengan memfilter berdasarkan tipe data.
  • Terapkan fungsi hash pada masing-masing kolom kategorikal.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Edit dan Jalankan Kode