Tfidf et BOW sur les mêmes données
Dans cet exercice, vous allez transformer la colonne review du jeu de données Amazon reviews en utilisant à la fois un sac de mots (bag-of-words) et une transformation tfidf.
Créez les deux vectoriseurs en ne spécifiant que le nombre maximal de caractéristiques égal à 100. Créez des DataFrame après la transformation et affichez les 5 premières lignes de chacun.
Faites attention à la façon dont vous fixez le nombre maximal de caractéristiques dans le vocabulaire. Un vocabulaire trop grand peut entraîner la déconnexion de votre session.
Cet exercice fait partie du cours
<cours>Analyse de sentiments en Python</cours>Instructions de l’exercice
- Importez les vectoriseurs BOW et Tfidf.
- Construisez et ajustez un vectoriseur BOW et un vectoriseur Tfidf à partir de la colonne
reviewet limitez le nombre de caractéristiques créées à 100. - Créez des DataFrame à partir des représentations vectorielles transformées.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Import the required packages
____
# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____)
# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())