MulaiMulai sekarang secara gratis

TF-IDF untuk alur film

Mari gunakan alur dari film yang dipilih secara acak untuk melakukan klasterisasi dokumen. Sebelum melakukan klasterisasi pada dokumen, dokumen perlu dibersihkan dari noise yang tidak diinginkan (seperti karakter khusus dan stop word) dan diubah menjadi matriks jarang melalui TF-IDF dokumen.

Gunakan kelas TfidfVectorizer untuk melakukan TF-IDF pada alur film yang disimpan dalam daftar plots. Fungsi remove_noise() tersedia untuk digunakan sebagai tokenizer di kelas TfidfVectorizer. Metode .fit_transform() memasangkan data ke dalam objek TfidfVectorizer lalu menghasilkan matriks jarang TF-IDF.

Catatan: Menjalankan metode .fit_transform() memerlukan beberapa detik.

Latihan ini adalah bagian dari kursus

Analisis Klaster di Python

Lihat Kursus

Petunjuk latihan

  • Impor kelas TfidfVectorizer dari sklearn.
  • Inisialisasi kelas TfidfVectorizer dengan frekuensi minimum dan maksimum masing-masing 0,1 dan 0,75, serta 50 fitur maksimum.
  • Gunakan metode fit_transform() pada kelas TfidfVectorizer yang telah diinisialisikan dengan daftar plots.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Edit dan Jalankan Kode