Regex mit NLTK-Tokenisierung

Twitter ist eine häufig genutzte Quelle für NLP-Texte und -Aufgaben. In dieser Übung baust du einen komplexeren Tokenizer für Tweets mit Hashtags und Erwähnungen mithilfe von nltk und Regex. Die Klasse nltk.tokenize.TweetTokenizer bietet dir zusätzliche Methoden und Attribute zum Parsen von Tweets.

Hier wurden dir einige Beispiel-Tweets bereitgestellt, die du sowohl mit TweetTokenizer als auch mit regexp_tokenize aus dem Modul nltk.tokenize parsen sollst. Diese Beispiel-Tweets befinden sich in der Variable tweets. Schau sie dir gern in der IPython-Shell an!

Anders als bei der Syntax der Regex-Bibliothek übergibst du bei nltk_tokenize() das Pattern als zweites Argument.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the necessary modules
____
____

Code bearbeiten und ausführen