Votre premier BOW
Le bag-of-words (sac de mots) est une approche pour transformer du texte en données numériques.
Dans cet exercice, vous allez appliquer un BOW à la liste annak avant de passer à un jeu de données plus large dans le prochain exercice.
Votre tâche consiste à travailler avec cette liste et à appliquer un BOW à l’aide de CountVectorizer(). Cette transformation est la première étape pour comprendre le sentiment d’un texte. Soyez attentif aux mots susceptibles de porter une forte charge affective.
N’oubliez pas que la sortie de CountVectorizer() est une matrice creuse, qui ne stocke que les entrées non nulles. Pour examiner le contenu réel de cette matrice, nous la convertissons en tableau dense avec la méthode .toarray().
Notez que, dans ce cas, vous n’avez pas besoin de préciser l’argument max_features car le texte est court.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez la fonction de vectorisation de comptes depuis
sklearn.feature_extraction.text. - Construisez et ajustez le vectoriseur sur le petit jeu de données.
- Créez la représentation BOW nommée
anna_bowen appelant la méthodetransform(). - Affichez le résultat BOW sous forme de tableau dense.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)
# Create the bow representation
anna_bow = anna_vect.____(annak)
# Print the bag-of-words result
print(anna_bow.toarray())