BOW avec des avis produits
Vous avez pratiqué un BOW sur un petit jeu de données. Vous allez maintenant l’appliquer à un échantillon d’avis produits Amazon. Les données ont été importées pour vous sous le nom reviews. Elles contiennent deux colonnes. La première s’appelle score et vaut 0 lorsque l’avis est négatif et 1 lorsqu’il est positif. La seconde colonne s’appelle review et contient le texte de l’avis rédigé par un client. N’hésitez pas à explorer les données dans l’IPython Shell.
Votre tâche consiste à construire un vocabulaire BOW en utilisant la colonne review.
Rappelez-vous que l’on peut appeler la méthode .get_feature_names() sur le vectoriseur pour obtenir la liste de tous les éléments du vocabulaire.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Créez un objet CountVectorizer en précisant le nombre maximal de caractéristiques.
- Ajustez (fit) le vectoriseur.
- Transformez le vectoriseur ajusté.
- Créez un DataFrame en convertissant la matrice creuse en tableau dense et veillez à bien spécifier les noms des colonnes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify max features
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())