ComenzarEmpieza gratis

Crear el DataFrame de TF-IDF

Ahora que has generado las características TF-IDF, necesitas ponerlas en un formato que puedas usar para hacer recomendaciones. Volverás a apoyarte en pandas para esto y envolverás el array en un DataFrame. Como vas a usar los títulos de las películas para filtrar los datos, puedes asignar los títulos al índice del DataFrame.

El DataFrame df_plots se ha cargado de nuevo para ti. Contiene los nombres de las películas en la columna Title y sus sinopsis en la columna Plot.

Este ejercicio forma parte del curso

Creación de motores de recomendación en Python

Ver curso

Instrucciones del ejercicio

  • Crea un TfidfVectorizer y ajústalo y transfórmalo como hiciste en el ejercicio anterior.
  • Envuelve el vectorized_data generado en un DataFrame. Usa los nombres de las características generadas durante la fase de ajuste y transformación como nombres de columnas y asigna tu nuevo DataFrame a tfidf_df.
  • Asigna los títulos originales de las películas al índice del nuevo DataFrame tfidf_df.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot']) 

# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())

# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())
Editar y ejecutar código