Film özetlerinin TF-IDF'i
Belir randomly seçilen filmlerin özetlerini belge kümeleme için kullanalım. Belgelerde kümeleme yapmadan önce, istenmeyen gürültüden (özel karakterler ve durak sözcükler gibi) arındırılmaları ve TF-IDF ile seyrek bir matrise dönüştürülmeleri gerekir.
Listede yer alan plots değişkenindeki film özetlerinin TF-IDF'ini oluşturmak için TfidfVectorizer sınıfını kullan. remove_noise() fonksiyonu, TfidfVectorizer sınıfında tokenizer olarak kullanılmak üzere hazır. .fit_transform() metodu veriyi TfidfVectorizer nesnesine uydurur ve ardından TF-IDF seyrek matrisini üretir.
Not: .fit_transform() metodunun çalışması birkaç saniye sürebilir.
Bu egzersiz
Python ile Kümeleme Analizi
kursunun bir parçasıdırEgzersiz talimatları
sklearniçindenTfidfVectorizersınıfını içe aktar.TfidfVectorizersınıfını minimum ve maksimum frekansları sırasıyla 0.1 ve 0.75, maksimum özellik sayısını 50 olacak şekilde başlat.- Başlatılan
TfidfVectorizersınıfındafit_transform()metodunuplotslistesiyle kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____