Specifica la lunghezza delle sequenze di token con BOW
Nel video abbiamo visto che specificando diverse lunghezze dei token — i cosiddetti n-grammi — possiamo catturare meglio il contesto, che può essere molto importante.
In questo esercizio lavorerai con un campione di recensioni di prodotti Amazon. Il tuo compito è costruire un vocabolario BOW usando la colonna review e specificare la lunghezza della sequenza di token.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Crea il vettorizzatore specificando che la lunghezza delle sequenze di token sia uni- e bigrammi.
- Esegui il fit del vettorizzatore.
- Trasforma con il vettorizzatore su cui hai fatto il fit.
- Nel DataFrame, assicurati di specificare correttamente i nomi delle colonne.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())