BOW con n-gram e dimensione del vocabolario
In questo esercizio, farai pratica nel costruire di nuovo un bag-of-words usando l’insieme di dati reviews con le recensioni di prodotti Amazon. Il tuo compito principale sarà limitare la dimensione del vocabolario e specificare la lunghezza della sequenza di token.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Importa il vettorizzatore da
sklearn. - Costruisci il vettorizzatore e assicurati di specificare i seguenti parametri: la dimensione del vocabolario deve essere limitata a 1000, includi solo i bigrammi e ignora i termini che compaiono in più di 500 documenti.
- Esegui il fit del vettorizzatore sulla colonna
review. - Crea un DataFrame a partire dalla rappresentazione BOW.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
#Import the vectorizer
from sklearn.____.____ import ____
# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)
# Transform the review
X_review = vect.transform(reviews.review)
# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())