Klasifikasi teks menggunakan vektor tf/idf
Sekarang setelah Anda mengenkode kolom title dari himpunan data volunteer menjadi vektor tf/idf, Anda akan menggunakan vektor tersebut untuk memprediksi kolom category_desc.
Latihan ini adalah bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Petunjuk latihan
- Bagi vektor
text_tfidfdan variabel targetymenjadi himpunan pelatihan dan uji, dengan menyetel parameterstratifysama dengany, karena sebaran kelas tidak merata. Perhatikan bahwa kita harus menjalankan metode.toarray()pada vektor tf/idf agar formatnya sesuai untuk scikit-learn. - Sesuaikan data
X_traindany_trainke model Naive Bayes,nb. - Cetak akurasi himpunan uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))