IniziaInizia gratis

Specifica la lunghezza delle sequenze di token con BOW

Nel video abbiamo visto che specificando diverse lunghezze dei token — i cosiddetti n-grammi — possiamo catturare meglio il contesto, che può essere molto importante.

In questo esercizio lavorerai con un campione di recensioni di prodotti Amazon. Il tuo compito è costruire un vocabolario BOW usando la colonna review e specificare la lunghezza della sequenza di token.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea il vettorizzatore specificando che la lunghezza delle sequenze di token sia uni- e bigrammi.
  • Esegui il fit del vettorizzatore.
  • Trasforma con il vettorizzatore su cui hai fatto il fit.
  • Nel DataFrame, assicurati di specificare correttamente i nomi delle colonne.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())
Modifica ed esegui il codice