Il tuo primo BOW
Un bag-of-words è un approccio per trasformare il testo in forma numerica.
In questo esercizio applicherai un BOW alla lista annak prima di passare a un insieme di dati più grande nel prossimo esercizio.
Il tuo compito è lavorare con questa lista e applicare un BOW usando CountVectorizer(). Questa trasformazione è il primo passo per capire il sentiment di un testo. Fai attenzione alle parole che possono esprimere un sentiment forte.
Ricorda che l'output di CountVectorizer() è una matrice sparsa, che memorizza solo le voci diverse da zero. Per vedere il contenuto effettivo di questa matrice, la convertiamo in un array denso usando il metodo .toarray().
Nota che in questo caso non è necessario specificare l'argomento max_features perché il testo è breve.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Importa la funzione di count vectorizer da
sklearn.feature_extraction.text. - Crea e adatta (fit) il vectorizer sul piccolo insieme di dati.
- Crea la rappresentazione BOW con nome
anna_bowchiamando il metodotransform(). - Stampa il risultato del BOW come array denso.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)
# Create the bow representation
anna_bow = anna_vect.____(annak)
# Print the bag-of-words result
print(anna_bow.toarray())