MulaiMulai sekarang secara gratis

Klasifikasi teks menggunakan vektor tf/idf

Sekarang setelah Anda mengenkode kolom title dari himpunan data volunteer menjadi vektor tf/idf, Anda akan menggunakan vektor tersebut untuk memprediksi kolom category_desc.

Latihan ini adalah bagian dari kursus

Prapemrosesan untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Bagi vektor text_tfidf dan variabel target y menjadi himpunan pelatihan dan uji, dengan menyetel parameter stratify sama dengan y, karena sebaran kelas tidak merata. Perhatikan bahwa kita harus menjalankan metode .toarray() pada vektor tf/idf agar formatnya sesuai untuk scikit-learn.
  • Sesuaikan data X_train dan y_train ke model Naive Bayes, nb.
  • Cetak akurasi himpunan uji.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))
Edit dan Jalankan Kode