Instancier le modèle TF-IDF

Par défaut, TF-IDF génère une colonne pour chaque mot présent dans l’ensemble de vos documents (ici, les résumés de films). Cela crée un jeu de données très volumineux et peu intuitif, car il contient à la fois des mots très fréquents qui apparaissent dans tous les documents, et des mots si rares qu’ils n’apportent aucune valeur pour mesurer les similarités entre éléments.

Dans cet exercice, vous allez travailler avec le DataFrame df_plots. Il contient les titres des films dans la colonne Title et leurs résumés dans la colonne Plot.

À partir de ce DataFrame, vous allez générer les scores TF-IDF par défaut et vérifier si des colonnes peu informatives sont présentes.

Vous relancerez ensuite les calculs TF-IDF en limitant cette fois le nombre de colonnes à l’aide des arguments min_df et max_df, et vous devriez constater l’amélioration.

Cet exercice fait partie du cours

<cours>Créer des moteurs de recommandation en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())

Modifier et exécuter le code