Array frekuensi kata tf-idf
Pada latihan ini, Anda akan membuat array frekuensi kata tf-idf untuk kumpulan dokumen sederhana. Untuk itu, gunakan TfidfVectorizer dari sklearn. Objek ini mengubah daftar dokumen menjadi array frekuensi kata, yang dikeluarkan sebagai csr_matrix. Ia memiliki metode fit() dan transform() seperti objek sklearn lainnya.
Anda diberikan daftar documents yang berisi dokumen sederhana tentang hewan peliharaan.
Latihan ini adalah bagian dari kursus
Unsupervised Learning in Python
Petunjuk latihan
- Impor
TfidfVectorizerdarisklearn.feature_extraction.text. - Buat instance
TfidfVectorizerbernamatfidf. - Terapkan metode
.fit_transform()daritfidfkedocumentsdan tetapkan hasilnya kecsr_mat. Ini adalah array frekuensi kata dalam format csr_matrix. - Periksa
csr_matdengan memanggil metode.toarray()dan mencetak hasilnya. Langkah ini sudah dilakukan untuk Anda. - Kolom-kolom pada array berkorespondensi dengan kata. Dapatkan daftar kata dengan memanggil metode
.get_feature_names_out()daritfidf, dan tetapkan hasilnya kewords.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)