MulaiMulai sekarang secara gratis

Array frekuensi kata tf-idf

Pada latihan ini, Anda akan membuat array frekuensi kata tf-idf untuk kumpulan dokumen sederhana. Untuk itu, gunakan TfidfVectorizer dari sklearn. Objek ini mengubah daftar dokumen menjadi array frekuensi kata, yang dikeluarkan sebagai csr_matrix. Ia memiliki metode fit() dan transform() seperti objek sklearn lainnya.

Anda diberikan daftar documents yang berisi dokumen sederhana tentang hewan peliharaan.

Latihan ini adalah bagian dari kursus

Unsupervised Learning in Python

Lihat Kursus

Petunjuk latihan

  • Impor TfidfVectorizer dari sklearn.feature_extraction.text.
  • Buat instance TfidfVectorizer bernama tfidf.
  • Terapkan metode .fit_transform() dari tfidf ke documents dan tetapkan hasilnya ke csr_mat. Ini adalah array frekuensi kata dalam format csr_matrix.
  • Periksa csr_mat dengan memanggil metode .toarray() dan mencetak hasilnya. Langkah ini sudah dilakukan untuk Anda.
  • Kolom-kolom pada array berkorespondensi dengan kata. Dapatkan daftar kata dengan memanggil metode .get_feature_names_out() dari tfidf, dan tetapkan hasilnya ke words.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Edit dan Jalankan Kode