Memetakan indeks fitur dengan nama fitur
Dalam video pelajaran, kita melihat bahwa CountVectorizer tidak selalu memberi indeks kosakata berdasarkan urutan alfabet. Pada latihan ini, Anda akan memetakan setiap indeks fitur ke nama fiturnya yang sesuai dari kosakata.
Kita akan menggunakan tiga kalimat tentang singa yang sama seperti di video. Kalimat-kalimat tersebut tersedia dalam sebuah list bernama corpus dan sudah ditampilkan di konsol.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Instansiasi objek
CountVectorizer. Beri namavectorizer. - Dengan menggunakan
fit_transform(), hasilkanbow_matrixuntukcorpus. - Dengan metode
get_feature_names(), petakan nama kolom ke kata yang sesuai dalam kosakata.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create CountVectorizer object
vectorizer = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())
# Map the column names to vocabulary
bow_df.columns = vectorizer.____
# Print bow_df
print(bow_df)