Sac de mots avec n-grams et taille du vocabulaire
Dans cet exercice, vous allez à nouveau construire un sac de mots en utilisant le jeu de données reviews contenant des avis de produits Amazon. Votre tâche principale sera de limiter la taille du vocabulaire et de spécifier la longueur de la séquence de tokens.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez le vectoriseur depuis
sklearn. - Construisez le vectoriseur en veillant à préciser les paramètres suivants : la taille du vocabulaire doit être limitée à 1000, n’inclure que des bigrams et ignorer les termes qui apparaissent dans plus de 500 documents.
- Ajustez (fit) le vectoriseur sur la colonne
review. - Créez un DataFrame à partir de la représentation BOW.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
#Import the vectorizer
from sklearn.____.____ import ____
# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)
# Transform the review
X_review = vect.transform(reviews.review)
# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())