Bag-of-words per i titoli dei libri
PyBooks ha ora un elenco di titoli di libri che devono essere codificati per ulteriori analisi. Il team dei dati ritiene che il modello Bag of Words (BoW) possa essere l'approccio migliore.
I seguenti pacchetti sono stati importati per te: torch, torchtext.
Questo esercizio fa parte del corso
Deep Learning per il testo con PyTorch
Istruzioni dell'esercizio
- Importa la classe
CountVectorizerper implementare il bag-of-words. - Inizializza un oggetto della classe che hai importato, poi usa questo oggetto per trasformare
titlesin una rappresentazione matriciale. - Estrai e mostra i primi cinque nomi delle caratteristiche e i titoli codificati con il metodo
get_feature_names_out().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import from sklearn
from sklearn.feature_extraction.text import ____
titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']
# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)
# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])