Spécifier la longueur des séquences de tokens avec BOW
Nous avons vu dans la vidéo qu’en spécifiant différentes longueurs de tokens — les n-grams — on peut mieux capturer le contexte, ce qui peut être très important.
Dans cet exercice, vous allez travailler avec un échantillon d’avis produits d’Amazon. Votre tâche est de construire un vocabulaire BOW à partir de la colonne review et de spécifier la longueur des séquences de tokens.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Construisez le vectoriseur en spécifiant une longueur de séquence de tokens correspondant aux uni- et bigrams.
- Ajustez (fit) le vectoriseur.
- Transformez avec le vectoriseur ajusté.
- Dans le DataFrame, veillez à bien renseigner les noms de colonnes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())