Tableau de fréquence des mots tf-idf
Dans cet exercice, vous allez créer un tableau de fréquence des mots tf-idf pour une collection de documents fictive. Pour ce faire, veuillez utiliser la fonction « TfidfVectorizer
» de sklearn. Il transforme une liste de documents en un tableau de fréquence des mots, qu'il génère sous forme de csr_matrix. Il dispose des méthodes d'fit()
, et transform()
, comme les autres objets sklearn.
On vous fournit une liste documents
de documents fictifs sur les animaux de compagnie.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importez
TfidfVectorizer
à partir desklearn.feature_extraction.text
. - Veuillez créer une instance d'
TfidfVectorizer
nommée «tfidf
». - Veuillez appliquer la méthode d'
.fit_transform()
detfidf
àdocuments
et attribuer le résultat àcsr_mat
. Il s'agit d'un tableau de fréquence des mots au format csr_matrix. - Veuillez vérifier l'
csr_mat
en appelant la méthode «.toarray()
» et en affichant le résultat. Cela a été fait pour vous. - Les colonnes du tableau correspondent aux mots. Obtenez la liste des mots en appelant la méthode «
.get_feature_names_out()
» de «tfidf
», puis associez le résultat à «words
».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)