Regex mit NLTK-Tokenisierung
Twitter ist eine häufig genutzte Quelle für NLP-Texte und -Aufgaben. In dieser Übung baust du einen komplexeren Tokenizer für Tweets mit Hashtags und Erwähnungen mithilfe von nltk und Regex. Die Klasse nltk.tokenize.TweetTokenizer bietet dir zusätzliche Methoden und Attribute zum Parsen von Tweets.
Hier wurden dir einige Beispiel-Tweets bereitgestellt, die du sowohl mit TweetTokenizer als auch mit regexp_tokenize aus dem Modul nltk.tokenize parsen sollst. Diese Beispiel-Tweets befinden sich in der Variable tweets. Schau sie dir gern in der IPython-Shell an!
Anders als bei der Syntax der Regex-Bibliothek übergibst du bei nltk_tokenize() das Pattern als zweites Argument.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the necessary modules
____
____