BaşlayınÜcretsiz Başlayın

Film özetlerinin TF-IDF'i

Belir randomly seçilen filmlerin özetlerini belge kümeleme için kullanalım. Belgelerde kümeleme yapmadan önce, istenmeyen gürültüden (özel karakterler ve durak sözcükler gibi) arındırılmaları ve TF-IDF ile seyrek bir matrise dönüştürülmeleri gerekir.

Listede yer alan plots değişkenindeki film özetlerinin TF-IDF'ini oluşturmak için TfidfVectorizer sınıfını kullan. remove_noise() fonksiyonu, TfidfVectorizer sınıfında tokenizer olarak kullanılmak üzere hazır. .fit_transform() metodu veriyi TfidfVectorizer nesnesine uydurur ve ardından TF-IDF seyrek matrisini üretir.

Not: .fit_transform() metodunun çalışması birkaç saniye sürebilir.

Bu egzersiz

Python ile Kümeleme Analizi

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn içinden TfidfVectorizer sınıfını içe aktar.
  • TfidfVectorizer sınıfını minimum ve maksimum frekansları sırasıyla 0.1 ve 0.75, maksimum özellik sayısını 50 olacak şekilde başlat.
  • Başlatılan TfidfVectorizer sınıfında fit_transform() metodunu plots listesiyle kullan.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Kodu Düzenle ve Çalıştır