String-operatoren met de Twitter-data
Je werkt verder met de tweets-gegevens, waarin de kolom text de inhoud van elke tweet bevat.
Je taak is om de kolom text om te zetten naar een lijst met tokens. Gebruik vervolgens string-operatoren om alle niet-alfabetische tekens uit de gemaakte tokenlijst te verwijderen.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de woordtokenizer.
- Maak woordtokens van elke tweet.
- Filter alle niet-alfabetische tekens uit de gemaakte lijst, dus behoud alleen letters.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the word tokenizing package
____
# Tokenize the text column
word_tokens = [____(review) for review in tweets.text]
print('Original tokens: ', word_tokens[0])
# Filter out non-letter characters
cleaned_tokens = [[word for word in item if ____.____] for item in word_tokens]
print('Cleaned tokens: ', cleaned_tokens[0])