Al je films vergelijken met TF-IDF
Nu je het zware werk hebt gedaan om je TF-IDF-gegevens in een bruikbaar formaat te krijgen, is het tijd om ze in te zetten om overeenkomsten te vinden en aanbevelingen te genereren.
Omdat je nu TF-IDF-scores gebruikt (dit zijn floats in plaats van Booleans), gebruik je de cosine similarity-metriek om de overeenkomsten tussen items te bepalen. In deze oefening maak je een matrix met alle cosine-overeenkomsten tussen films en sla je die op in een DataFrame zodat je ze gemakkelijk kunt opzoeken. Zo kun je films snel en eenvoudig vergelijken en aanbevelingen vinden.
De tfidf_df-DataFrame die je in de vorige oefening hebt gemaakt, met een rij voor elke film, is voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Aanbevelingssystemen bouwen in Python
Oefeninstructies
- Bepaal de cosine similarity tussen alle films en sla de resultaten op in
cosine_similarity_array. - Maak een DataFrame van
cosine_similarity_arraymettfidf_summary_df.indexals zowel de rijen als de kolommen. - Print de eerste vijf rijen van het DataFrame en bekijk de overeenkomstscores.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____
# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)
# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)
# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())