Plusieurs colonnes de texte
Dans cet exercice, vous continuez à travailler avec les données Twitter des compagnies aériennes. Un jeu de données tweets a été importé pour vous.
Dans certains cas, un jeu de données peut contenir plusieurs colonnes textuelles et vous pouvez vouloir créer une représentation numérique pour chacune d’elles. Ici, en plus de la colonne text, qui contient le corps du tweet, il existe une seconde colonne textuelle, appelée negativereason. Elle indique la raison pour laquelle le client a laissé un avis négatif.
Votre objectif est de construire des représentations BOW pour les deux colonnes et de préciser les stop words requis.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez le module de vectorisation et la liste par défaut des stop words anglais.
- Mettez à jour la liste par défaut des stop words anglais et créez l’ensemble
my_stop_words. - Indiquez l’argument des stop words dans le premier vectoriseur avec l’ensemble mis à jour, et dans le second vectoriseur avec l’ensemble par défaut des stop words anglais.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the vectorizer and default English stop words list
____
# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____)
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)
# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())