Bag-of-words per i titoli dei libri

PyBooks ha ora un elenco di titoli di libri che devono essere codificati per ulteriori analisi. Il team dei dati ritiene che il modello Bag of Words (BoW) possa essere l'approccio migliore.

I seguenti pacchetti sono stati importati per te: torch, torchtext.

Questo esercizio fa parte del corso

Deep Learning per il testo con PyTorch

Visualizza corso

Istruzioni dell'esercizio

Importa la classe CountVectorizer per implementare il bag-of-words.
Inizializza un oggetto della classe che hai importato, poi usa questo oggetto per trasformare titles in una rappresentazione matriciale.
Estrai e mostra i primi cinque nomi delle caratteristiche e i titoli codificati con il metodo get_feature_names_out().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import from sklearn
from sklearn.feature_extraction.text import ____

titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']

# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)

# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])

Modifica ed esegui il codice