TfIdf auf Twitter-Daten zur Airline-Stimmung

Jetzt erstellst du Features mit der TfIdf-Methode und arbeitest weiter mit dem Datensatz tweets.

In dieser Übung nutzt du, was du in den vorherigen Lektionen gelernt hast: entferne Stoppwörter, verwende ein Token-Muster und gib die N-Gramme an.

Die Ausgabe ist ein DataFrame, dessen Spalten mit TfidfVectorizer() erzeugt werden. So ein DataFrame kann direkt an ein überwachtes Lernmodell übergeben werden – genau darum geht es im nächsten Kapitel.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

Importiere das nötige Paket, um einen TfidfVectorizer und die ENGLISH_STOP_WORDS zu verwenden.
Erstelle einen TfIdf-Vektorisierer aus der Spalte text des tweets-Datensatzes. Gib dabei Uni- und Bi-Gramme als Auswahl der N-Gramme an, Tokens mit ausschließlich alphanumerischen Zeichen mithilfe des vorgegebenen Token-Musters sowie die Stoppwörter entsprechend ENGLISH_STOP_WORDS.
Wende den Vektorisierer an, und zwar auf dieselbe Spalte, auf der du ihn fit gesetzt hast.
Gib die Spaltennamen in der Funktion DataFrame() an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())

Code bearbeiten und ausführen