Metin sınıflandırma için TfidfVectorizer
Önceki egzersizde oluşturduğun seyrek CountVectorizer'a benzer şekilde, belgelerin için tf-idf vektörleri oluşturacaksın. Bir TfidfVectorizer kurup bazı özelliklerini inceleyeceksin.
Bu egzersizde, pandas ve sklearn'i, önceki egzersizde oluşturduğun aynı X_train, y_train ve X_test, y_test DataFrame ve Series'leriyle birlikte kullanacaksın.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
sklearn.feature_extraction.textiçindenTfidfVectorizer'ı içe aktar.tfidf_vectorizeradlı birTfidfVectorizernesnesi oluştur. Bunu yaparkenstop_words="english"vemax_df=0.7anahtar argümanlarını belirt.- Eğitim verisini fit et ve dönüştür.
- Test verisini dönüştür.
tfidf_vectorizerın ilk 10 özelliğini yazdır.tfidf_trainin.A(veya array) özniteliği üzerinde dilimleme yaparak tf-idf eğitim verisinin ilk 5 vektörünü yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])