Tableau de fréquence des mots tf-idf
Dans cet exercice, vous allez créer un tableau de fréquence des mots tf-idf pour une collection de documents fictifs. Pour ce faire, veuillez utiliser le TfidfVectorizer de sklearn. Il transforme une liste de documents en un tableau de fréquence des mots, qu'il génère sous forme de csr_matrix. Il dispose des méthodes fit() et transform(), comme les autres objets sklearn.
On vous fournit une liste documents de documents factices sur les animaux de compagnie.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importez
TfidfVectorizerdepuissklearn.feature_extraction.text. - Créez une instance
TfidfVectorizerappeléetfidf. - Appliquez la méthode
.fit_transform()detfidfàdocumentset attribuez le résultat àcsr_mat. Il s'agit d'un tableau de fréquence des mots au format csr_matrix. - Inspectez
csr_maten appelant sa méthode.toarray()et en affichant le résultat. Cela a été fait pour vous. - Les colonnes du tableau correspondent aux mots. Obtenez la liste des mots en appelant la méthode
.get_feature_names_out()detfidf, puis attribuez le résultat àwords.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)