Regex mit NLTK Tokenisierung
Twitter ist eine häufig genutzte Quelle für NLP Texte und Aufgaben. In dieser Übung baust du einen komplexeren Tokenizer für Tweets mit Hashtags und Erwähnungen mit nltk
und Regex. Die Klasse nltk.tokenize.TweetTokenizer
bietet dir einige zusätzliche Methoden und Attribute zum Parsen von Tweets.
Hier bekommst du einige Beispiel-Tweets, die du mit TweetTokenizer
und regexp_tokenize
aus dem Modul nltk.tokenize
parsen kannst. Diese Beispiel-Tweets wurden in die Variable tweets
vorgeladen. Du kannst sie in der IPython Shell erkunden!
Anders als bei der Syntax für die Regex-Bibliothek übergibst du bei nltk_tokenize()
das Muster als zweites Argument.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the necessary modules
____
____