IniziaInizia gratis

Il tuo primo BOW

Un bag-of-words è un approccio per trasformare il testo in forma numerica.

In questo esercizio applicherai un BOW alla lista annak prima di passare a un insieme di dati più grande nel prossimo esercizio.

Il tuo compito è lavorare con questa lista e applicare un BOW usando CountVectorizer(). Questa trasformazione è il primo passo per capire il sentiment di un testo. Fai attenzione alle parole che possono esprimere un sentiment forte.

Ricorda che l'output di CountVectorizer() è una matrice sparsa, che memorizza solo le voci diverse da zero. Per vedere il contenuto effettivo di questa matrice, la convertiamo in un array denso usando il metodo .toarray().

Nota che in questo caso non è necessario specificare l'argomento max_features perché il testo è breve.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la funzione di count vectorizer da sklearn.feature_extraction.text.
  • Crea e adatta (fit) il vectorizer sul piccolo insieme di dati.
  • Crea la rappresentazione BOW con nome anna_bow chiamando il metodo transform().
  • Stampa il risultato del BOW come array denso.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the required function
____

annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']

# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)

# Create the bow representation
anna_bow = anna_vect.____(annak)

# Print the bag-of-words result 
print(anna_bow.toarray())
Modifica ed esegui il codice