Créer le DataFrame TF-IDF
Vous avez maintenant généré les caractéristiques TF-IDF ; il faut les mettre dans un format exploitable pour faire des recommandations.
Vous allez de nouveau utiliser pandas pour cela et encapsuler le tableau dans un DataFrame.
Comme vous utiliserez les titres de films pour filtrer les données, vous pouvez affecter ces titres à l’index du DataFrame.
Le DataFrame df_plots a de nouveau été chargé pour vous. Il contient les noms des films dans la colonne Title et leurs résumés dans la colonne Plot.
Cet exercice fait partie du cours
Créer des moteurs de recommandation en Python
Instructions
- Créez un
TfidfVectorizeret appliquez-lui fit et transform comme dans l’exercice précédent. - Encapsulez les données générées
vectorized_datadans un DataFrame. Utilisez les noms des caractéristiques générées lors des phases d’apprentissage et de transformation comme noms de colonnes et assignez votre nouveau DataFrame àtfidf_df. - Assignez les titres originaux des films à l’index du DataFrame
tfidf_dfnouvellement créé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot'])
# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())
# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())