Spécifier la longueur des séquences de tokens avec BOW

Nous avons vu dans la vidéo qu’en spécifiant différentes longueurs de tokens — les n-grams — on peut mieux capturer le contexte, ce qui peut être très important.

Dans cet exercice, vous allez travailler avec un échantillon d’avis produits d’Amazon. Votre tâche est de construire un vocabulaire BOW à partir de la colonne review et de spécifier la longueur des séquences de tokens.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Construisez le vectoriseur en spécifiant une longueur de séquence de tokens correspondant aux uni- et bigrams.
Ajustez (fit) le vectoriseur.
Transformez avec le vectoriseur ajusté.
Dans le DataFrame, veillez à bien renseigner les noms de colonnes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())

Modifier et exécuter le code