BaşlayınÜcretsiz Başlayın

Metin sınıflandırma için TfidfVectorizer

Önceki egzersizde oluşturduğun seyrek CountVectorizer'a benzer şekilde, belgelerin için tf-idf vektörleri oluşturacaksın. Bir TfidfVectorizer kurup bazı özelliklerini inceleyeceksin.

Bu egzersizde, pandas ve sklearn'i, önceki egzersizde oluşturduğun aynı X_train, y_train ve X_test, y_test DataFrame ve Series'leriyle birlikte kullanacaksın.

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn.feature_extraction.text içinden TfidfVectorizer'ı içe aktar.
  • tfidf_vectorizer adlı bir TfidfVectorizer nesnesi oluştur. Bunu yaparken stop_words="english" ve max_df=0.7 anahtar argümanlarını belirt.
  • Eğitim verisini fit et ve dönüştür.
  • Test verisini dönüştür.
  • tfidf_vectorizerın ilk 10 özelliğini yazdır.
  • tfidf_trainin .A (veya array) özniteliği üzerinde dilimleme yaparak tf-idf eğitim verisinin ilk 5 vektörünü yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])
Kodu Düzenle ve Çalıştır