CommencerCommencer gratuitement

Votre premier BOW

Le bag-of-words (sac de mots) est une approche pour transformer du texte en données numériques.

Dans cet exercice, vous allez appliquer un BOW à la liste annak avant de passer à un jeu de données plus large dans le prochain exercice.

Votre tâche consiste à travailler avec cette liste et à appliquer un BOW à l’aide de CountVectorizer(). Cette transformation est la première étape pour comprendre le sentiment d’un texte. Soyez attentif aux mots susceptibles de porter une forte charge affective.

N’oubliez pas que la sortie de CountVectorizer() est une matrice creuse, qui ne stocke que les entrées non nulles. Pour examiner le contenu réel de cette matrice, nous la convertissons en tableau dense avec la méthode .toarray().

Notez que, dans ce cas, vous n’avez pas besoin de préciser l’argument max_features car le texte est court.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

  • Importez la fonction de vectorisation de comptes depuis sklearn.feature_extraction.text.
  • Construisez et ajustez le vectoriseur sur le petit jeu de données.
  • Créez la représentation BOW nommée anna_bow en appelant la méthode transform().
  • Affichez le résultat BOW sous forme de tableau dense.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the required function
____

annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']

# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)

# Create the bow representation
anna_bow = anna_vect.____(annak)

# Print the bag-of-words result 
print(anna_bow.toarray())
Modifier et exécuter le code