MulaiMulai sekarang secara gratis

Memetakan indeks fitur dengan nama fitur

Dalam video pelajaran, kita melihat bahwa CountVectorizer tidak selalu memberi indeks kosakata berdasarkan urutan alfabet. Pada latihan ini, Anda akan memetakan setiap indeks fitur ke nama fiturnya yang sesuai dari kosakata.

Kita akan menggunakan tiga kalimat tentang singa yang sama seperti di video. Kalimat-kalimat tersebut tersedia dalam sebuah list bernama corpus dan sudah ditampilkan di konsol.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Instansiasi objek CountVectorizer. Beri nama vectorizer.
  • Dengan menggunakan fit_transform(), hasilkan bow_matrix untuk corpus.
  • Dengan metode get_feature_names(), petakan nama kolom ke kata yang sesuai dalam kosakata.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create CountVectorizer object
vectorizer = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())

# Map the column names to vocabulary 
bow_df.columns = vectorizer.____

# Print bow_df
print(bow_df)
Edit dan Jalankan Kode