Membuat instance model TF-IDF

Secara default, TF-IDF menghasilkan satu kolom untuk setiap kata di semua dokumen Anda (dalam kasus ini ringkasan film). Hal ini menciptakan himpunan data yang sangat besar dan tidak intuitif karena akan berisi kata-kata yang sangat umum yang muncul di setiap dokumen, serta kata-kata yang sangat jarang muncul sehingga tidak memberikan nilai dalam menemukan kemiripan antar item.

Dalam latihan ini, Anda akan bekerja dengan DataFrame df_plots. DataFrame ini memuat nama film pada kolom Title dan alur ceritanya pada kolom Plot.

Dengan DataFrame ini, Anda akan menghasilkan skor TF-IDF default dan melihat apakah terdapat kolom yang tidak bernilai.

Selanjutnya Anda akan menjalankan kembali perhitungan TF-IDF, kali ini membatasi jumlah kolom menggunakan argumen min_df dan max_df dan semoga melihat perbaikannya.

Latihan ini merupakan bagian dari kursus

Membangun Recommendation Engine di Python

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())

Edit dan Jalankan Kode