IniziaInizia gratis

BOW con le recensioni di prodotti

Hai fatto pratica con un BOW su un piccolo insieme di dati. Ora applicalo a un campione di recensioni di prodotti Amazon. I dati sono già stati importati e si chiamano reviews. Contengono due colonne. La prima si chiama score ed è 0 quando la recensione è negativa e 1 quando è positiva. La seconda colonna si chiama review e contiene il testo della recensione scritta da un cliente. Sentiti libero di esplorare i dati nell'IPython Shell.

Il tuo compito è costruire un vocabolario BOW usando la colonna review.

Ricorda che possiamo chiamare il metodo .get_feature_names() sul vettorizzatore per ottenere un elenco di tutti gli elementi del vocabolario.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un oggetto CountVectorizer, specificando il numero massimo di feature.
  • Esegui il fit del vettorizzatore.
  • Trasforma il vettorizzatore già fittato.
  • Crea un DataFrame trasformando la matrice sparsa in un array denso e assicurati di specificare correttamente i nomi delle colonne.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())
Modifica ed esegui il codice