TF-IDF modelini başlat

Varsayılan olarak TF-IDF, tüm belgelerindeki (bizim durumda film özetleri) her kelime için bir sütun üretir. Bu, her belgede görünen çok yaygın kelimeleri ve öğeler arasındaki benzerlikleri bulmada değer katmayan, çok nadir görünen kelimeleri içerdiği için çok büyük ve sezgisel olmayan bir veri kümesi oluşturur.

Bu egzersizde df_plots DataFrame'i ile çalışacaksın. Title sütununda filmlerin adları, Plot sütununda ise özetleri bulunuyor.

Bu DataFrame'i kullanarak varsayılan TF-IDF skorlarını oluşturacak ve değersiz sütunların olup olmadığını göreceksin.

Ardından TF-IDF hesaplamalarını tekrar çalıştıracak, bu kez min_df ve max_df argümanlarını kullanarak sütun sayısını sınırlayacak ve umarız iyileşmeyi gözlemleyeceksin.

Bu egzersiz, kursun bir parçasıdır

Python ile Öneri Motorları Geliştirme

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())

Kodu Düzenle ve Çalıştır