CommencerCommencer gratuitement

Sac de mots pour des titres de livres

PyBooks dispose désormais d’une liste de titres de livres à encoder pour une analyse ultérieure. L’équipe data pense que le modèle Bag of Words (BoW) pourrait être la meilleure approche.

Les packages suivants ont été importés pour vous : torch, torchtext.

Cet exercice fait partie du cours

Deep Learning pour le texte avec PyTorch

Afficher le cours

Instructions

  • Importez la classe CountVectorizer pour implémenter le bag-of-words.
  • Initialisez un objet de la classe importée, puis utilisez-le pour transformer titles en une représentation matricielle.
  • Extrayez et affichez les cinq premiers noms de caractéristiques et les titres encodés avec la méthode get_feature_names_out().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import from sklearn
from sklearn.feature_extraction.text import ____

titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']

# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)

# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])
Modifier et exécuter le code