CommencerCommencer gratuitement

Tfidf et BOW sur les mêmes données

Dans cet exercice, vous allez transformer la colonne review du jeu de données Amazon reviews en utilisant à la fois un sac de mots (bag-of-words) et une transformation tfidf.

Créez les deux vectoriseurs en ne spécifiant que le nombre maximal de caractéristiques égal à 100. Créez des DataFrame après la transformation et affichez les 5 premières lignes de chacun.

Faites attention à la façon dont vous fixez le nombre maximal de caractéristiques dans le vocabulaire. Un vocabulaire trop grand peut entraîner la déconnexion de votre session.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

  • Importez les vectoriseurs BOW et Tfidf.
  • Construisez et ajustez un vectoriseur BOW et un vectoriseur Tfidf à partir de la colonne review et limitez le nombre de caractéristiques créées à 100.
  • Créez des DataFrame à partir des représentations vectorielles transformées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())
Modifier et exécuter le code