Tfidf et BOW sur les mêmes données
Dans cet exercice, vous allez transformer la colonne review du jeu de données Amazon reviews en utilisant à la fois un sac de mots (bag-of-words) et une transformation tfidf.
Créez les deux vectoriseurs en ne spécifiant que le nombre maximal de caractéristiques égal à 100. Créez des DataFrame après la transformation et affichez les 5 premières lignes de chacun.
Faites attention à la façon dont vous fixez le nombre maximal de caractéristiques dans le vocabulaire. Un vocabulaire trop grand peut entraîner la déconnexion de votre session.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez les vectoriseurs BOW et Tfidf.
- Construisez et ajustez un vectoriseur BOW et un vectoriseur Tfidf à partir de la colonne
reviewet limitez le nombre de caractéristiques créées à 100. - Créez des DataFrame à partir des représentations vectorielles transformées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the required packages
____
# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____)
# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())