MulaiMulai sekarang secara gratis

Menghitung kata (I)

Setelah informasi tingkat tinggi dicatat, Anda dapat mulai membuat fitur berdasarkan konten aktual dari setiap teks. Salah satu caranya adalah dengan mendekatinya serupa dengan saat Anda bekerja dengan variabel kategorikal pada pelajaran sebelumnya.

  • Untuk setiap kata unik dalam himpunan data, dibuat satu kolom.
  • Untuk setiap entri, jumlah kemunculan kata tersebut dihitung dan nilainya dimasukkan ke kolom masing-masing.

Kolom "count" ini kemudian dapat digunakan untuk melatih model Machine Learning.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Impor CountVectorizer dari sklearn.feature_extraction.text.
  • Instansiasi CountVectorizer dan tetapkan ke cv.
  • Fit vectorizer tersebut pada kolom text_clean.
  • Cetak nama-nama fitur yang dihasilkan oleh vectorizer.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)
Edit dan Jalankan Kode