CommencerCommencer gratuitement

Plusieurs colonnes de texte

Dans cet exercice, vous continuez à travailler avec les données Twitter des compagnies aériennes. Un jeu de données tweets a été importé pour vous.

Dans certains cas, un jeu de données peut contenir plusieurs colonnes textuelles et vous pouvez vouloir créer une représentation numérique pour chacune d’elles. Ici, en plus de la colonne text, qui contient le corps du tweet, il existe une seconde colonne textuelle, appelée negativereason. Elle indique la raison pour laquelle le client a laissé un avis négatif.

Votre objectif est de construire des représentations BOW pour les deux colonnes et de préciser les stop words requis.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

  • Importez le module de vectorisation et la liste par défaut des stop words anglais.
  • Mettez à jour la liste par défaut des stop words anglais et créez l’ensemble my_stop_words.
  • Indiquez l’argument des stop words dans le premier vectoriseur avec l’ensemble mis à jour, et dans le second vectoriseur avec l’ensemble par défaut des stop words anglais.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the vectorizer and default English stop words list
____

# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
 
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____) 
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)

# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())
Modifier et exécuter le code