Menghitung kata (I)
Setelah informasi tingkat tinggi dicatat, Anda dapat mulai membuat fitur berdasarkan konten aktual dari setiap teks. Salah satu caranya adalah dengan mendekatinya serupa dengan saat Anda bekerja dengan variabel kategorikal pada pelajaran sebelumnya.
- Untuk setiap kata unik dalam himpunan data, dibuat satu kolom.
- Untuk setiap entri, jumlah kemunculan kata tersebut dihitung dan nilainya dimasukkan ke kolom masing-masing.
Kolom "count" ini kemudian dapat digunakan untuk melatih model Machine Learning.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Impor
CountVectorizerdarisklearn.feature_extraction.text. - Instansiasi
CountVectorizerdan tetapkan kecv. - Fit vectorizer tersebut pada kolom
text_clean. - Cetak nama-nama fitur yang dihasilkan oleh vectorizer.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import CountVectorizer
____
# Instantiate CountVectorizer
cv = ____
# Fit the vectorizer
cv.____(speech_df['text_clean'])
# Print feature names
print(cv.____)