tf/idf vektörlerini kullanarak metin sınıflandırma
Artık volunteer veri kümesinin title sütununu tf/idf vektörlerine dönüştürdüğüne göre, bu vektörleri category_desc sütununu tahmin etmek için kullanacaksın.
Bu egzersiz, kursun bir parçasıdır
Python'da Machine Learning için Ön İşleme
Egzersiz talimatları
- Sınıf dağılımı dengesiz olduğu için,
text_tfidfvektörünü ve hedef değişkeny’yi eğitim ve test kümelerine ayırırkenstratifyparametresiniyolarak ayarla. scikit-learn için doğru biçimi elde etmek üzere tf/idf vektöründe.toarray()yöntemini çalıştırmamız gerektiğine dikkat et. X_trainvey_trainverilerini Naive Bayes modelinbile eğit.- Test kümesi doğruluğunu yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))