CommencerCommencer gratuitement

Tableau de fréquence des mots tf-idf

Dans cet exercice, vous allez créer un tableau de fréquence des mots tf-idf pour une collection de documents fictifs. Pour ce faire, veuillez utiliser le TfidfVectorizer de sklearn. Il transforme une liste de documents en un tableau de fréquence des mots, qu'il génère sous forme de csr_matrix. Il dispose des méthodes fit() et transform(), comme les autres objets sklearn.

On vous fournit une liste documents de documents factices sur les animaux de compagnie.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

  • Importez TfidfVectorizer depuis sklearn.feature_extraction.text.
  • Créez une instance TfidfVectorizer appelée tfidf.
  • Appliquez la méthode .fit_transform() de tfidf à documents et attribuez le résultat à csr_mat. Il s'agit d'un tableau de fréquence des mots au format csr_matrix.
  • Inspectez csr_mat en appelant sa méthode .toarray() et en affichant le résultat. Cela a été fait pour vous.
  • Les colonnes du tableau correspondent aux mots. Obtenez la liste des mots en appelant la méthode .get_feature_names_out() de tfidf, puis attribuez le résultat à words.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Modifier et exécuter le code