ComenzarEmpieza gratis

Comparar todas tus películas con TF-IDF

Ahora que ya te has esforzado en dejar tus datos TF-IDF en un formato utilizable, es momento de ponerlos a trabajar para encontrar similitudes y generar recomendaciones.

Como ahora usas puntuaciones TF-IDF (que son valores float, no booleanos), utilizarás la métrica de similitud del coseno para calcular las similitudes entre elementos. En este ejercicio, generarás una matriz con todas las similitudes del coseno entre películas y la guardarás en un DataFrame para facilitar las búsquedas. Esto te permitirá comparar películas y encontrar recomendaciones de forma rápida y sencilla.

El DataFrame tfidf_df que creaste en el ejercicio anterior, con una fila por cada película, ya está cargado.

Este ejercicio forma parte del curso

Creación de motores de recomendación en Python

Ver curso

Instrucciones del ejercicio

  • Calcula las medidas de similitud del coseno entre todas las películas y asigna los resultados a cosine_similarity_array.
  • Crea un DataFrame a partir de cosine_similarity_array usando tfidf_summary_df.index como sus filas y columnas.
  • Imprime las cinco primeras filas del DataFrame y examina las puntuaciones de similitud.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____

# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)

# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)

# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())
Editar y ejecutar código