TF-IDF des intrigues de films
Utilisons les intrigues de films sélectionnés aléatoirement pour effectuer un clustering de documents. Avant d’appliquer un clustering, il faut nettoyer les documents pour supprimer le « bruit » (caractères spéciaux, stop words, etc.) puis les convertir en matrice creuse via le TF-IDF des documents.
Utilisez la classe TfidfVectorizer pour calculer le TF-IDF des intrigues de films stockées dans la liste plots. La fonction remove_noise() est disponible et peut être utilisée comme tokenizer dans la classe TfidfVectorizer. La méthode .fit_transform() ajuste les données au sein des objets TfidfVectorizer puis génère la matrice creuse TF-IDF.
Remarque : l’exécution de la méthode .fit_transform() prend quelques secondes.
Cet exercice fait partie du cours
Analyse de clusters en Python
Instructions
- Importez la classe
TfidfVectorizerdepuissklearn. - Initialisez la classe
TfidfVectorizeravec des fréquences minimale et maximale de 0,1 et 0,75, et 50 caractéristiques maximum. - Utilisez la méthode
fit_transform()sur la classeTfidfVectorizerinitialisée avec la liste plots.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____