Confrontare tutti i tuoi film con TF-IDF

Ora che hai fatto il lavoro duro per portare i tuoi dati TF-IDF in un formato utilizzabile, è il momento di metterli all’opera per trovare somiglianze e generare raccomandazioni.

Questa volta, dato che stai usando i punteggi TF-IDF (che sono float, a differenza dei valori booleani), utilizzerai la metrica della similarità del coseno per trovare le somiglianze tra gli elementi. In questo esercizio, genererai una matrice di tutte le similarità del coseno tra i film e le salverai in un DataFrame per facilitare le ricerche. Questo ti permetterà di confrontare i film e trovare rapidamente raccomandazioni.

Il DataFrame tfidf_df che hai creato nell’esercizio precedente, contenente una riga per ogni film, è stato caricato per te.

Questo esercizio fa parte del corso

Creare motori di raccomandazione in Python

Visualizza corso

Istruzioni dell'esercizio

Trova le misure di similarità del coseno tra tutti i film e assegna i risultati a cosine_similarity_array.
Crea un DataFrame da cosine_similarity_array usando tfidf_summary_df.index come indici di righe e colonne.
Stampa le prime cinque righe del DataFrame ed esamina i punteggi di similarità.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____

# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)

# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)

# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())

Modifica ed esegui il codice