Een tokenizer kiezen
Gezien de volgende string: welk van de onderstaande patronen is de beste tokenizer? Als het kan, wil je zinsinterpunctie als losse tokens behouden, maar '#1' als één token laten staan.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
De string is beschikbaar in je werkruimte als my_string, en de patronen zijn vooraf geladen als pattern1, pattern2, pattern3 en pattern4.
Daarnaast is regexp_tokenize geïmporteerd uit nltk.tokenize. Je kunt regexp_tokenize(string, pattern) gebruiken met my_string en een van de patronen als argumenten om zelf te experimenteren en te zien welke de beste tokenizer is.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen