String-Operatoren mit den Twitter-Daten

Du arbeitest weiter mit den tweets-Daten, in denen die Spalte text den Inhalt jedes Tweets speichert.

Deine Aufgabe ist es, die Spalte text in eine Liste von Tokens zu verwandeln. Entferne anschließend mithilfe von String-Operatoren alle nichtalphabetischen Zeichen aus der erstellten Token-Liste.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Wort-Tokenisierungsfunktion.
Erzeuge Wort-Tokens aus jedem Tweet.
Filtere alle nichtalphabetischen Zeichen aus der erstellten Liste heraus, d. h. behalte nur Buchstaben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the word tokenizing package
____

# Tokenize the text column
word_tokens = [____(review) for review in tweets.text]
print('Original tokens: ', word_tokens[0])

# Filter out non-letter characters
cleaned_tokens = [[word for word in item if ____.____] for item in word_tokens]
print('Cleaned tokens: ', cleaned_tokens[0])

Code bearbeiten und ausführen