MulaiMulai sekarang secara gratis

Membuat DataFrame TF-IDF

Sekarang setelah Anda menghasilkan fitur TF-IDF, Anda perlu menempatkannya dalam format yang dapat digunakan untuk membuat rekomendasi. Anda akan kembali memanfaatkan pandas dan membungkus array tersebut ke dalam sebuah DataFrame. Karena Anda akan menggunakan judul film untuk memfilter data, Anda dapat menetapkan judul tersebut ke indeks DataFrame.

DataFrame df_plots telah dimuat untuk Anda. DataFrame ini berisi nama film pada kolom Title dan ringkasan ceritanya pada kolom Plot.

Latihan ini adalah bagian dari kursus

Membangun Recommendation Engine di Python

Lihat Kursus

Petunjuk latihan

  • Buat TfidfVectorizer dan lakukan fit serta transform seperti yang Anda lakukan pada latihan sebelumnya.
  • Bungkus vectorized_data yang dihasilkan ke dalam sebuah DataFrame. Gunakan nama fitur yang dihasilkan selama tahap fit dan transform sebagai nama kolomnya dan tetapkan DataFrame baru Anda ke tfidf_df.
  • Tetapkan judul film asli ke indeks DataFrame tfidf_df yang baru dibuat.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot']) 

# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())

# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())
Edit dan Jalankan Kode