CommencerCommencez gratuitement

Tfidf et BOW sur les mêmes données

Dans cet exercice, vous allez transformer la colonne review du jeu de données Amazon reviews en utilisant à la fois un sac de mots (bag-of-words) et une transformation tfidf.

Créez les deux vectoriseurs en ne spécifiant que le nombre maximal de caractéristiques égal à 100. Créez des DataFrame après la transformation et affichez les 5 premières lignes de chacun.

Faites attention à la façon dont vous fixez le nombre maximal de caractéristiques dans le vocabulaire. Un vocabulaire trop grand peut entraîner la déconnexion de votre session.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>
Voir le cours

Instructions de l’exercice

  • Importez les vectoriseurs BOW et Tfidf.
  • Construisez et ajustez un vectoriseur BOW et un vectoriseur Tfidf à partir de la colonne review et limitez le nombre de caractéristiques créées à 100.
  • Créez des DataFrame à partir des représentations vectorielles transformées.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())
Modifier et exécuter le code