CommencerCommencer gratuitement

Appliquer TF-IDF aux descriptions de livres

PyBooks a rassemblé plusieurs descriptions de livres et souhaite identifier les mots importants grâce à la technique d’encodage TF-IDF. En procédant ainsi, ils espèrent mieux comprendre les caractéristiques propres à chaque livre afin d’améliorer leur système de recommandation.

Les packages suivants ont été importés pour vous : torch, torchtext.

Cet exercice fait partie du cours

Deep Learning pour le texte avec PyTorch

Afficher le cours

Instructions

  • Importez la classe TfidfVectorizer depuis sklearn.feature_extraction.text, qui convertit un ensemble de documents bruts en une matrice de caractéristiques TF-IDF.
  • Instanciez un objet de cette classe, puis utilisez-le pour encoder descriptions en une matrice TF-IDF de vecteurs.
  • Récupérez et affichez les cinq premiers noms de caractéristiques depuis vectorizer ainsi que les vecteurs encodés depuis tfidf_encoded_descriptions.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)

# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])
Modifier et exécuter le code