Sac de mots avec n-grams et taille du vocabulaire

Dans cet exercice, vous allez à nouveau construire un sac de mots en utilisant le jeu de données reviews contenant des avis de produits Amazon. Votre tâche principale sera de limiter la taille du vocabulaire et de spécifier la longueur de la séquence de tokens.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Importez le vectoriseur depuis sklearn.
Construisez le vectoriseur en veillant à préciser les paramètres suivants : la taille du vocabulaire doit être limitée à 1000, n’inclure que des bigrams et ignorer les termes qui apparaissent dans plus de 500 documents.
Ajustez (fit) le vectoriseur sur la colonne review.
Créez un DataFrame à partir de la représentation BOW.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())

Modifier et exécuter le code