Regex met NLTK-tokenization
Twitter is een veelgebruikte bron voor NLP-tekst en -taken. In deze oefening bouw je een complexere tokenizer voor tweets met hashtags en mentions met nltk en regex. De klasse nltk.tokenize.TweetTokenizer geeft je extra methoden en attributen om tweets te parsen.
Hier krijg je enkele voorbeeldtweets om te parsen met zowel TweetTokenizer als regexp_tokenize uit de module nltk.tokenize. Deze voorbeeldtweets zijn al ingeladen in de variabele tweets. Verken ze gerust in de IPython Shell!
Anders dan bij de regex-bibliotheek geef je bij nltk_tokenize() het patroon als tweede argument door.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the necessary modules
____
____