TF-IDF untuk alur film
Mari gunakan alur dari film yang dipilih secara acak untuk melakukan klasterisasi dokumen. Sebelum melakukan klasterisasi pada dokumen, dokumen perlu dibersihkan dari noise yang tidak diinginkan (seperti karakter khusus dan stop word) dan diubah menjadi matriks jarang melalui TF-IDF dokumen.
Gunakan kelas TfidfVectorizer untuk melakukan TF-IDF pada alur film yang disimpan dalam daftar plots. Fungsi remove_noise() tersedia untuk digunakan sebagai tokenizer di kelas TfidfVectorizer. Metode .fit_transform() memasangkan data ke dalam objek TfidfVectorizer lalu menghasilkan matriks jarang TF-IDF.
Catatan: Menjalankan metode .fit_transform() memerlukan beberapa detik.
Latihan ini merupakan bagian dari kursus
Analisis Klaster di Python
Instruksi latihan
- Impor kelas
TfidfVectorizerdarisklearn. - Inisialisasi kelas
TfidfVectorizerdengan frekuensi minimum dan maksimum masing-masing 0,1 dan 0,75, serta 50 fitur maksimum. - Gunakan metode
fit_transform()pada kelasTfidfVectorizeryang telah diinisialisikan dengan daftar plots.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____