BaşlayınÜcretsiz Başlayın

tf/idf vektörlerini kullanarak metin sınıflandırma

Artık volunteer veri kümesinin title sütununu tf/idf vektörlerine dönüştürdüğüne göre, bu vektörleri category_desc sütununu tahmin etmek için kullanacaksın.

Bu egzersiz

Python'da Machine Learning için Ön İşleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Sınıf dağılımı dengesiz olduğu için, text_tfidf vektörünü ve hedef değişken y’yi eğitim ve test kümelerine ayırırken stratify parametresini y olarak ayarla. scikit-learn için doğru biçimi elde etmek üzere tf/idf vektöründe .toarray() yöntemini çalıştırmamız gerektiğine dikkat et.
  • X_train ve y_train verilerini Naive Bayes modeli nb ile eğit.
  • Test kümesi doğruluğunu yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))
Kodu Düzenle ve Çalıştır