LoslegenKostenlos loslegen

Regex mit NLTK-Tokenisierung

Twitter ist eine häufig genutzte Quelle für NLP-Texte und -Aufgaben. In dieser Übung baust du einen komplexeren Tokenizer für Tweets mit Hashtags und Erwähnungen mithilfe von nltk und Regex. Die Klasse nltk.tokenize.TweetTokenizer bietet dir zusätzliche Methoden und Attribute zum Parsen von Tweets.

Hier wurden dir einige Beispiel-Tweets bereitgestellt, die du sowohl mit TweetTokenizer als auch mit regexp_tokenize aus dem Modul nltk.tokenize parsen sollst. Diese Beispiel-Tweets befinden sich in der Variable tweets. Schau sie dir gern in der IPython-Shell an!

Anders als bei der Syntax der Regex-Bibliothek übergibst du bei nltk_tokenize() das Pattern als zweites Argument.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the necessary modules
____
____
Code bearbeiten und ausführen