Analyse du sentiment des compagnies aériennes avec mots vides
On vous fournit un jeu de données, appelé tweets, qui contient des avis de clients et leur sentiment à propos de compagnies aériennes. Il comporte deux colonnes : airline_sentiment et text, où le sentiment peut être positif, négatif ou neutre, et text correspond au texte du tweet.
Dans cet exercice, vous allez créer une représentation BOW en tenant compte des mots vides. Rappelez-vous que les mots vides ne sont pas informatifs et que vous pouvez vouloir les supprimer. Cela conduit à un vocabulaire plus réduit et, au final, à moins de variables. Gardez à l’esprit que l’on peut enrichir une liste par défaut de mots vides avec des termes spécifiques à notre contexte.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez la liste par défaut des mots vides en anglais.
- Mettez à jour la liste par défaut avec la liste fournie
['airline', 'airlines', '@']pour créermy_stop_words. - Indiquez l’argument des mots vides dans le vectorizer.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____
# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])
# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)
# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())