Al je films vergelijken met TF-IDF

Nu je het zware werk hebt gedaan om je TF-IDF-gegevens in een bruikbaar formaat te krijgen, is het tijd om ze in te zetten om overeenkomsten te vinden en aanbevelingen te genereren.

Omdat je nu TF-IDF-scores gebruikt (dit zijn floats in plaats van Booleans), gebruik je de cosine similarity-metriek om de overeenkomsten tussen items te bepalen. In deze oefening maak je een matrix met alle cosine-overeenkomsten tussen films en sla je die op in een DataFrame zodat je ze gemakkelijk kunt opzoeken. Zo kun je films snel en eenvoudig vergelijken en aanbevelingen vinden.

De tfidf_df-DataFrame die je in de vorige oefening hebt gemaakt, met een rij voor elke film, is voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Aanbevelingssystemen bouwen in Python

Bekijk cursus

Oefeninstructies

Bepaal de cosine similarity tussen alle films en sla de resultaten op in cosine_similarity_array.
Maak een DataFrame van cosine_similarity_array met tfidf_summary_df.index als zowel de rijen als de kolommen.
Print de eerste vijf rijen van het DataFrame en bekijk de overeenkomstscores.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____

# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)

# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)

# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())

Code bewerken en uitvoeren