BaşlayınÜcretsiz Başlayın

TF-IDF modelini başlat

Varsayılan olarak TF-IDF, tüm belgelerindeki (bizim durumda film özetleri) her kelime için bir sütun üretir. Bu, her belgede görünen çok yaygın kelimeleri ve öğeler arasındaki benzerlikleri bulmada değer katmayan, çok nadir görünen kelimeleri içerdiği için çok büyük ve sezgisel olmayan bir veri kümesi oluşturur.

Bu egzersizde df_plots DataFrame'i ile çalışacaksın. Title sütununda filmlerin adları, Plot sütununda ise özetleri bulunuyor.

Bu DataFrame'i kullanarak varsayılan TF-IDF skorlarını oluşturacak ve değersiz sütunların olup olmadığını göreceksin.

Ardından TF-IDF hesaplamalarını tekrar çalıştıracak, bu kez min_df ve max_df argümanlarını kullanarak sütun sayısını sınırlayacak ve umarız iyileşmeyi gözlemleyeceksin.

Bu egzersiz

Python ile Öneri Motorları Geliştirme

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())
Kodu Düzenle ve Çalıştır