Airline-Stimmung mit Stoppwörtern

Du bekommst einen Datensatz namens tweets, der Bewertungen und Stimmungen von Kund:innen zu Airlines enthält. Er besteht aus zwei Spalten: airline_sentiment und text. Die Stimmung kann positiv, negativ oder neutral sein, und text ist der Text des Tweets.

In dieser Übung erstellst du eine BOW-Darstellung, berücksichtigst dabei aber die Stoppwörter. Denk daran: Stoppwörter sind nicht informativ und du möchtest sie vielleicht entfernen. Das führt zu einem kleineren Vokabular und letztlich zu weniger Features. Beachte, dass wir eine Standardliste von Stoppwörtern um kontextspezifische Wörter erweitern können.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Standardliste der englischen Stoppwörter.
Erweitere die Standardliste der Stoppwörter mit der gegebenen Liste ['airline', 'airlines', '@'] und erstelle my_stop_words.
Gib das Stoppwörter-Argument im Vektorisierer an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____

# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])

# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)

# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Code bearbeiten und ausführen