IniziaInizia gratis

Tfidf e BOW sugli stessi dati

In questo esercizio, trasformerai la colonna review delle reviews di prodotti Amazon usando sia un bag-of-words sia una trasformazione tfidf.

Crea entrambi i vectorizer specificando solo il numero massimo di feature uguale a 100. Crea dei DataFrame dopo la trasformazione e stampa le prime 5 righe di ciascuno.

Fai attenzione a come imposti il numero massimo di feature nel vocabolario. Un vocabolario troppo grande può causare la disconnessione della sessione.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa i vectorizer BOW e Tfidf.
  • Crea e adatta un vectorizer BOW e uno Tfidf dalla colonna review e limita il numero di feature create a 100.
  • Crea dei DataFrame dalle rappresentazioni vettoriali trasformate.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())
Modifica ed esegui il codice