CommencerCommencer gratuitement

Tableau de fréquence des mots tf-idf

Dans cet exercice, vous allez créer un tableau de fréquence des mots tf-idf pour une collection de documents fictive. Pour ce faire, veuillez utiliser la fonction « TfidfVectorizer » de sklearn. Il transforme une liste de documents en un tableau de fréquence des mots, qu'il génère sous forme de csr_matrix. Il dispose des méthodes d'fit(), et transform(), comme les autres objets sklearn.

On vous fournit une liste documents de documents fictifs sur les animaux de compagnie.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

  • Importez TfidfVectorizer à partir de sklearn.feature_extraction.text.
  • Veuillez créer une instance d'TfidfVectorizer nommée « tfidf ».
  • Veuillez appliquer la méthode d'.fit_transform() de tfidf à documents et attribuer le résultat à csr_mat. Il s'agit d'un tableau de fréquence des mots au format csr_matrix.
  • Veuillez vérifier l'csr_mat en appelant la méthode « .toarray() » et en affichant le résultat. Cela a été fait pour vous.
  • Les colonnes du tableau correspondent aux mots. Obtenez la liste des mots en appelant la méthode « .get_feature_names_out() » de « tfidf », puis associez le résultat à « words ».

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Modifier et exécuter le code