CommencerCommencer gratuitement

TF-IDF des intrigues de films

Utilisons les intrigues de films sélectionnés aléatoirement pour effectuer un clustering de documents. Avant d’appliquer un clustering, il faut nettoyer les documents pour supprimer le « bruit » (caractères spéciaux, stop words, etc.) puis les convertir en matrice creuse via le TF-IDF des documents.

Utilisez la classe TfidfVectorizer pour calculer le TF-IDF des intrigues de films stockées dans la liste plots. La fonction remove_noise() est disponible et peut être utilisée comme tokenizer dans la classe TfidfVectorizer. La méthode .fit_transform() ajuste les données au sein des objets TfidfVectorizer puis génère la matrice creuse TF-IDF.

Remarque : l’exécution de la méthode .fit_transform() prend quelques secondes.

Cet exercice fait partie du cours

Analyse de clusters en Python

Afficher le cours

Instructions

  • Importez la classe TfidfVectorizer depuis sklearn.
  • Initialisez la classe TfidfVectorizer avec des fréquences minimale et maximale de 0,1 et 0,75, et 50 caractéristiques maximum.
  • Utilisez la méthode fit_transform() sur la classe TfidfVectorizer initialisée avec la liste plots.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Modifier et exécuter le code