String-Operatoren mit den Twitter-Daten
Du arbeitest weiter mit den tweets-Daten, in denen die Spalte text den Inhalt jedes Tweets speichert.
Deine Aufgabe ist es, die Spalte text in eine Liste von Tokens zu verwandeln. Entferne anschließend mithilfe von String-Operatoren alle nichtalphabetischen Zeichen aus der erstellten Token-Liste.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere die Wort-Tokenisierungsfunktion.
- Erzeuge Wort-Tokens aus jedem Tweet.
- Filtere alle nichtalphabetischen Zeichen aus der erstellten Liste heraus, d. h. behalte nur Buchstaben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the word tokenizing package
____
# Tokenize the text column
word_tokens = [____(review) for review in tweets.text]
print('Original tokens: ', word_tokens[0])
# Filter out non-letter characters
cleaned_tokens = [[word for word in item if ____.____] for item in word_tokens]
print('Cleaned tokens: ', cleaned_tokens[0])