Créer le DataFrame TF-IDF

Vous avez maintenant généré les caractéristiques TF-IDF ; il faut les mettre dans un format exploitable pour faire des recommandations. Vous allez de nouveau utiliser pandas pour cela et encapsuler le tableau dans un DataFrame. Comme vous utiliserez les titres de films pour filtrer les données, vous pouvez affecter ces titres à l’index du DataFrame.

Le DataFrame df_plots a de nouveau été chargé pour vous. Il contient les noms des films dans la colonne Title et leurs résumés dans la colonne Plot.

Cet exercice fait partie du cours

<cours>Créer des moteurs de recommandation en Python</cours>

Voir le cours

Instructions de l’exercice

Créez un TfidfVectorizer et appliquez-lui fit et transform comme dans l’exercice précédent.
Encapsulez les données générées vectorized_data dans un DataFrame. Utilisez les noms des caractéristiques générées lors des phases d’apprentissage et de transformation comme noms de colonnes et assignez votre nouveau DataFrame à tfidf_df.
Assignez les titres originaux des films à l’index du DataFrame tfidf_df nouvellement créé.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot']) 

# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())

# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())

Modifier et exécuter le code