tf/idf vektörlerini kullanarak metin sınıflandırma
Artık volunteer veri kümesinin title sütununu tf/idf vektörlerine dönüştürdüğüne göre, bu vektörleri category_desc sütununu tahmin etmek için kullanacaksın.
Bu egzersiz
Python'da Machine Learning için Ön İşleme
kursunun bir parçasıdırEgzersiz talimatları
- Sınıf dağılımı dengesiz olduğu için,
text_tfidfvektörünü ve hedef değişkeny’yi eğitim ve test kümelerine ayırırkenstratifyparametresiniyolarak ayarla. scikit-learn için doğru biçimi elde etmek üzere tf/idf vektöründe.toarray()yöntemini çalıştırmamız gerektiğine dikkat et. X_trainvey_trainverilerini Naive Bayes modelinbile eğit.- Test kümesi doğruluğunu yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))