BOW con le recensioni di prodotti
Hai fatto pratica con un BOW su un piccolo insieme di dati. Ora applicalo a un campione di recensioni di prodotti Amazon. I dati sono già stati importati e si chiamano reviews. Contengono due colonne. La prima si chiama score ed è 0 quando la recensione è negativa e 1 quando è positiva. La seconda colonna si chiama review e contiene il testo della recensione scritta da un cliente. Sentiti libero di esplorare i dati nell'IPython Shell.
Il tuo compito è costruire un vocabolario BOW usando la colonna review.
Ricorda che possiamo chiamare il metodo .get_feature_names() sul vettorizzatore per ottenere un elenco di tutti gli elementi del vocabolario.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Crea un oggetto CountVectorizer, specificando il numero massimo di feature.
- Esegui il fit del vettorizzatore.
- Trasforma il vettorizzatore già fittato.
- Crea un DataFrame trasformando la matrice sparsa in un array denso e assicurati di specificare correttamente i nomi delle colonne.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify max features
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())