Membuat DataFrame TF-IDF
Sekarang setelah Anda menghasilkan fitur TF-IDF, Anda perlu menempatkannya dalam format yang dapat digunakan untuk membuat rekomendasi.
Anda akan kembali memanfaatkan pandas dan membungkus array tersebut ke dalam sebuah DataFrame.
Karena Anda akan menggunakan judul film untuk memfilter data, Anda dapat menetapkan judul tersebut ke indeks DataFrame.
DataFrame df_plots telah dimuat untuk Anda. DataFrame ini berisi nama film pada kolom Title dan ringkasan ceritanya pada kolom Plot.
Latihan ini adalah bagian dari kursus
Membangun Recommendation Engine di Python
Petunjuk latihan
- Buat
TfidfVectorizerdan lakukan fit serta transform seperti yang Anda lakukan pada latihan sebelumnya. - Bungkus
vectorized_datayang dihasilkan ke dalam sebuah DataFrame. Gunakan nama fitur yang dihasilkan selama tahap fit dan transform sebagai nama kolomnya dan tetapkan DataFrame baru Anda ketfidf_df. - Tetapkan judul film asli ke indeks DataFrame
tfidf_dfyang baru dibuat.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot'])
# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())
# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())