BOW con n-gram e dimensione del vocabolario

In questo esercizio, farai pratica nel costruire di nuovo un bag-of-words usando l’insieme di dati reviews con le recensioni di prodotti Amazon. Il tuo compito principale sarà limitare la dimensione del vocabolario e specificare la lunghezza della sequenza di token.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Importa il vettorizzatore da sklearn.
Costruisci il vettorizzatore e assicurati di specificare i seguenti parametri: la dimensione del vocabolario deve essere limitata a 1000, includi solo i bigrammi e ignora i termini che compaiono in più di 500 documenti.
Esegui il fit del vettorizzatore sulla colonna review.
Crea un DataFrame a partire dalla rappresentazione BOW.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())

Modifica ed esegui il codice