Comparer tous vos films avec TF-IDF
Maintenant que vous avez fait le gros du travail pour mettre vos données TF-IDF dans un format exploitable, il est temps de les utiliser pour trouver des similarités et générer des recommandations.
Cette fois, comme vous utilisez des scores TF-IDF (qui sont des flottants et non des booléens), vous utiliserez la mesure de similarité cosinus pour trouver les similarités entre les éléments. Dans cet exercice, vous allez générer une matrice de toutes les similarités cosinus entre films et les stocker dans un DataFrame pour faciliter les recherches. Cela vous permettra de comparer des films et de trouver des recommandations rapidement et facilement.
Le DataFrame tfidf_df que vous avez créé dans l’exercice précédent, contenant une ligne par film, a été chargé pour vous.
Cet exercice fait partie du cours
Créer des moteurs de recommandation en Python
Instructions
- Calculez les similarités cosinus entre tous les films et assignez le résultat à
cosine_similarity_array. - Créez un DataFrame à partir de
cosine_similarity_arrayen utilisanttfidf_summary_df.indexcomme index des lignes et des colonnes. - Affichez les cinq premières lignes du DataFrame et examinez les scores de similarité.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____
# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)
# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)
# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())