1. Apprendre
  2. /
  3. Cours
  4. /
  5. Unsupervised Learning in Python

Connected

Exercice

Un tableau de fréquences de mots tf-idf

Dans cet exercice, vous allez créer un tableau de fréquences de mots tf-idf pour une petite collection de documents. Pour cela, utilisez TfidfVectorizer de sklearn. Cet outil transforme une liste de documents en un tableau de fréquences de mots, qu'il retourne sous forme de csr_matrix. Comme d'autres objets sklearn, il possède les méthodes fit() et transform().

On vous fournit une liste documents de courts documents sur des animaux de compagnie.

Instructions

100 XP
  • Importez TfidfVectorizer depuis sklearn.feature_extraction.text.
  • Créez une instance de TfidfVectorizer appelée tfidf.
  • Appliquez la méthode .fit_transform() de tfidf à documents et assignez le résultat à csr_mat. Il s'agit d'un tableau de fréquences de mots au format csr_matrix.
  • Inspectez csr_mat en appelant sa méthode .toarray() et en imprimant le résultat. Cela a été fait pour vous.
  • Les colonnes du tableau correspondent aux mots. Obtenez la liste des mots en appelant la méthode .get_feature_names_out() de tfidf, et assignez le résultat à words.