BOW con le recensioni di prodotti

Hai fatto pratica con un BOW su un piccolo insieme di dati. Ora applicalo a un campione di recensioni di prodotti Amazon. I dati sono già stati importati e si chiamano reviews. Contengono due colonne. La prima si chiama score ed è 0 quando la recensione è negativa e 1 quando è positiva. La seconda colonna si chiama review e contiene il testo della recensione scritta da un cliente. Sentiti libero di esplorare i dati nell'IPython Shell.

Il tuo compito è costruire un vocabolario BOW usando la colonna review.

Ricorda che possiamo chiamare il metodo .get_feature_names() sul vettorizzatore per ottenere un elenco di tutti gli elementi del vocabolario.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Crea un oggetto CountVectorizer, specificando il numero massimo di feature.
Esegui il fit del vettorizzatore.
Trasforma il vettorizzatore già fittato.
Crea un DataFrame trasformando la matrice sparsa in un array denso e assicurati di specificare correttamente i nomi delle colonne.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())

Modifica ed esegui il codice