Mulai sekarangMulai gratis

Memetakan indeks fitur dengan nama fitur

Dalam video pelajaran, kita melihat bahwa CountVectorizer tidak selalu memberi indeks kosakata berdasarkan urutan alfabet. Pada latihan ini, Anda akan memetakan setiap indeks fitur ke nama fiturnya yang sesuai dari kosakata.

Kita akan menggunakan tiga kalimat tentang singa yang sama seperti di video. Kalimat-kalimat tersebut tersedia dalam sebuah list bernama corpus dan sudah ditampilkan di konsol.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Instruksi latihan

  • Instansiasi objek CountVectorizer. Beri nama vectorizer.
  • Dengan menggunakan fit_transform(), hasilkan bow_matrix untuk corpus.
  • Dengan metode get_feature_names(), petakan nama kolom ke kata yang sesuai dalam kosakata.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create CountVectorizer object
vectorizer = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())

# Map the column names to vocabulary 
bow_df.columns = vectorizer.____

# Print bow_df
print(bow_df)
Edit dan Jalankan Kode