TF-IDF untuk alur film
Mari gunakan alur dari film yang dipilih secara acak untuk melakukan klasterisasi dokumen. Sebelum melakukan klasterisasi pada dokumen, dokumen perlu dibersihkan dari noise yang tidak diinginkan (seperti karakter khusus dan stop word) dan diubah menjadi matriks jarang melalui TF-IDF dokumen.
Gunakan kelas TfidfVectorizer untuk melakukan TF-IDF pada alur film yang disimpan dalam daftar plots. Fungsi remove_noise() tersedia untuk digunakan sebagai tokenizer di kelas TfidfVectorizer. Metode .fit_transform() memasangkan data ke dalam objek TfidfVectorizer lalu menghasilkan matriks jarang TF-IDF.
Catatan: Menjalankan metode .fit_transform() memerlukan beberapa detik.
Latihan ini adalah bagian dari kursus
Analisis Klaster di Python
Petunjuk latihan
- Impor kelas
TfidfVectorizerdarisklearn. - Inisialisasi kelas
TfidfVectorizerdengan frekuensi minimum dan maksimum masing-masing 0,1 dan 0,75, serta 50 fitur maksimum. - Gunakan metode
fit_transform()pada kelasTfidfVectorizeryang telah diinisialisikan dengan daftar plots.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____