MulaiMulai sekarang secara gratis

Membandingkan semua film Anda dengan TF-IDF

Setelah Anda bekerja keras menyiapkan data TF-IDF ke dalam format yang dapat digunakan, saatnya memanfaatkannya untuk menemukan kemiripan dan menghasilkan rekomendasi.

Kali ini, karena Anda menggunakan skor TF-IDF (yang berupa float, bukan Boolean), Anda akan menggunakan metrik cosine similarity untuk menemukan kemiripan antarelemen. Dalam latihan ini, Anda akan membuat sebuah matriks berisi semua nilai cosine similarity antarsesama film dan menyimpannya dalam sebuah DataFrame agar mudah ditelusuri. Ini akan memungkinkan Anda membandingkan film dan menemukan rekomendasi dengan cepat dan mudah.

DataFrame tfidf_df yang Anda buat pada latihan sebelumnya, yang berisi satu baris untuk setiap film, telah dimuat untuk Anda.

Latihan ini adalah bagian dari kursus

Membangun Recommendation Engine di Python

Lihat Kursus

Petunjuk latihan

  • Temukan ukuran cosine similarity antar semua film dan tetapkan hasilnya ke cosine_similarity_array.
  • Buat sebuah DataFrame dari cosine_similarity_array dengan tfidf_summary_df.index sebagai baris dan kolomnya.
  • Cetak lima baris teratas dari DataFrame dan periksa skor kemiripannya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____

# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)

# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)

# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())
Edit dan Jalankan Kode