Tfidf e BOW sugli stessi dati
In questo esercizio, trasformerai la colonna review delle reviews di prodotti Amazon usando sia un bag-of-words sia una trasformazione tfidf.
Crea entrambi i vectorizer specificando solo il numero massimo di feature uguale a 100. Crea dei DataFrame dopo la trasformazione e stampa le prime 5 righe di ciascuno.
Fai attenzione a come imposti il numero massimo di feature nel vocabolario. Un vocabolario troppo grande può causare la disconnessione della sessione.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Importa i vectorizer BOW e Tfidf.
- Crea e adatta un vectorizer BOW e uno Tfidf dalla colonna
reviewe limita il numero di feature create a 100. - Crea dei DataFrame dalle rappresentazioni vettoriali trasformate.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the required packages
____
# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____)
# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())