Regex mit NLTK Tokenisierung
Twitter ist eine häufig genutzte Quelle für NLP Texte und Aufgaben. In dieser Übung baust du einen komplexeren Tokenizer für Tweets mit Hashtags und Erwähnungen mit nltk und Regex. Die Klasse nltk.tokenize.TweetTokenizer bietet dir einige zusätzliche Methoden und Attribute zum Parsen von Tweets.
Hier bekommst du einige Beispiel-Tweets, die du mit TweetTokenizer und regexp_tokenize aus dem Modul nltk.tokenize parsen kannst. Diese Beispiel-Tweets wurden in die Variable tweets vorgeladen. Du kannst sie in der IPython Shell erkunden!
Anders als bei der Syntax für die Regex-Bibliothek übergibst du bei nltk_tokenize() das Muster als zweites Argument.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the necessary modules
____
____