Regex met NLTK-tokenization

Twitter is een veelgebruikte bron voor NLP-tekst en -taken. In deze oefening bouw je een complexere tokenizer voor tweets met hashtags en mentions met nltk en regex. De klasse nltk.tokenize.TweetTokenizer geeft je extra methoden en attributen om tweets te parsen.

Hier krijg je enkele voorbeeldtweets om te parsen met zowel TweetTokenizer als regexp_tokenize uit de module nltk.tokenize. Deze voorbeeldtweets zijn al ingeladen in de variabele tweets. Verken ze gerust in de IPython Shell!

Anders dan bij de regex-bibliotheek geef je bij nltk_tokenize() het patroon als tweede argument door.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the necessary modules
____
____

Code bewerken en uitvoeren