BOW avec des avis produits

Vous avez pratiqué un BOW sur un petit jeu de données. Vous allez maintenant l’appliquer à un échantillon d’avis produits Amazon. Les données ont été importées pour vous sous le nom reviews. Elles contiennent deux colonnes. La première s’appelle score et vaut 0 lorsque l’avis est négatif et 1 lorsqu’il est positif. La seconde colonne s’appelle review et contient le texte de l’avis rédigé par un client. N’hésitez pas à explorer les données dans l’IPython Shell.

Votre tâche consiste à construire un vocabulaire BOW en utilisant la colonne review.

Rappelez-vous que l’on peut appeler la méthode .get_feature_names() sur le vectoriseur pour obtenir la liste de tous les éléments du vocabulaire.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

Créez un objet CountVectorizer en précisant le nombre maximal de caractéristiques.
Ajustez (fit) le vectoriseur.
Transformez le vectoriseur ajusté.
Créez un DataFrame en convertissant la matrice creuse en tableau dense et veillez à bien spécifier les noms des colonnes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())

Modifier et exécuter le code