CommencerCommencer gratuitement

BOW avec des avis produits

Vous avez pratiqué un BOW sur un petit jeu de données. Vous allez maintenant l’appliquer à un échantillon d’avis produits Amazon. Les données ont été importées pour vous sous le nom reviews. Elles contiennent deux colonnes. La première s’appelle score et vaut 0 lorsque l’avis est négatif et 1 lorsqu’il est positif. La seconde colonne s’appelle review et contient le texte de l’avis rédigé par un client. N’hésitez pas à explorer les données dans l’IPython Shell.

Votre tâche consiste à construire un vocabulaire BOW en utilisant la colonne review.

Rappelez-vous que l’on peut appeler la méthode .get_feature_names() sur le vectoriseur pour obtenir la liste de tous les éléments du vocabulaire.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

  • Créez un objet CountVectorizer en précisant le nombre maximal de caractéristiques.
  • Ajustez (fit) le vectoriseur.
  • Transformez le vectoriseur ajusté.
  • Créez un DataFrame en convertissant la matrice creuse en tableau dense et veillez à bien spécifier les noms des colonnes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())
Modifier et exécuter le code