LoslegenKostenlos loslegen

Regex mit NLTK Tokenisierung

Twitter ist eine häufig genutzte Quelle für NLP Texte und Aufgaben. In dieser Übung baust du einen komplexeren Tokenizer für Tweets mit Hashtags und Erwähnungen mit nltk und Regex. Die Klasse nltk.tokenize.TweetTokenizer bietet dir einige zusätzliche Methoden und Attribute zum Parsen von Tweets.

Hier bekommst du einige Beispiel-Tweets, die du mit TweetTokenizer und regexp_tokenize aus dem Modul nltk.tokenize parsen kannst. Diese Beispiel-Tweets wurden in die Variable tweets vorgeladen. Du kannst sie in der IPython Shell erkunden!

Anders als bei der Syntax für die Regex-Bibliothek übergibst du bei nltk_tokenize() das Muster als zweites Argument.

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the necessary modules
____
____
Code bearbeiten und ausführen