LoslegenKostenlos loslegen

TfIdf auf Twitter-Daten zur Airline-Stimmung

Jetzt erstellst du Features mit der TfIdf-Methode und arbeitest weiter mit dem Datensatz tweets.

In dieser Übung nutzt du, was du in den vorherigen Lektionen gelernt hast: entferne Stoppwörter, verwende ein Token-Muster und gib die N-Gramme an.

Die Ausgabe ist ein DataFrame, dessen Spalten mit TfidfVectorizer() erzeugt werden. So ein DataFrame kann direkt an ein überwachtes Lernmodell übergeben werden – genau darum geht es im nächsten Kapitel.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere das nötige Paket, um einen TfidfVectorizer und die ENGLISH_STOP_WORDS zu verwenden.
  • Erstelle einen TfIdf-Vektorisierer aus der Spalte text des tweets-Datensatzes. Gib dabei Uni- und Bi-Gramme als Auswahl der N-Gramme an, Tokens mit ausschließlich alphanumerischen Zeichen mithilfe des vorgegebenen Token-Musters sowie die Stoppwörter entsprechend ENGLISH_STOP_WORDS.
  • Wende den Vektorisierer an, und zwar auf dieselbe Spalte, auf der du ihn fit gesetzt hast.
  • Gib die Spaltennamen in der Funktion DataFrame() an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())
Code bearbeiten und ausführen