Crear el DataFrame de TF-IDF
Ahora que has generado las características TF-IDF, necesitas ponerlas en un formato que puedas usar para hacer recomendaciones.
Volverás a apoyarte en pandas para esto y envolverás el array en un DataFrame.
Como vas a usar los títulos de las películas para filtrar los datos, puedes asignar los títulos al índice del DataFrame.
El DataFrame df_plots se ha cargado de nuevo para ti. Contiene los nombres de las películas en la columna Title y sus sinopsis en la columna Plot.
Este ejercicio forma parte del curso
Creación de motores de recomendación en Python
Instrucciones del ejercicio
- Crea un
TfidfVectorizery ajústalo y transfórmalo como hiciste en el ejercicio anterior. - Envuelve el
vectorized_datagenerado en un DataFrame. Usa los nombres de las características generadas durante la fase de ajuste y transformación como nombres de columnas y asigna tu nuevo DataFrame atfidf_df. - Asigna los títulos originales de las películas al índice del nuevo DataFrame
tfidf_df.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot'])
# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())
# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())