Mehrere Textspalten

In dieser Übung arbeitest du weiter mit den Airline-Twitter-Daten. Ein Datensatz tweets wurde für dich importiert.

In manchen Fällen hast du mehr als eine Textspalte in einem Datensatz und möchtest für jede dieser Spalten eine numerische Darstellung erzeugen. Hier gibt es neben der Spalte text, die den Inhalt des Tweets enthält, eine zweite Textspalte namens negativereason. Sie enthält den Grund, warum der Kunde eine negative Bewertung hinterlassen hat.

Deine Aufgabe ist es, für beide Spalten BOW-Darstellungen zu erstellen und die erforderlichen Stoppwörter zu spezifizieren.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere das Vectorizer-Paket und die Standardliste englischer Stoppwörter.
Erweitere die Standardliste der englischen Stoppwörter und erstelle die Menge my_stop_words.
Gib beim ersten Vectorizer das Argument für stop_words als die erweiterte Menge an und beim zweiten Vectorizer die Standardmenge der englischen Stoppwörter.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the vectorizer and default English stop words list
____

# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
 
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____) 
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)

# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())

Code bearbeiten und ausführen