Specifica la lunghezza delle sequenze di token con BOW

Nel video abbiamo visto che specificando diverse lunghezze dei token — i cosiddetti n-grammi — possiamo catturare meglio il contesto, che può essere molto importante.

In questo esercizio lavorerai con un campione di recensioni di prodotti Amazon. Il tuo compito è costruire un vocabolario BOW usando la colonna review e specificare la lunghezza della sequenza di token.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Crea il vettorizzatore specificando che la lunghezza delle sequenze di token sia uni- e bigrammi.
Esegui il fit del vettorizzatore.
Trasforma con il vettorizzatore su cui hai fatto il fit.
Nel DataFrame, assicurati di specificare correttamente i nomi delle colonne.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())

Modifica ed esegui il codice