Aan de slagBegin gratis

Een tokenizer kiezen

Gezien de volgende string: welk van de onderstaande patronen is de beste tokenizer? Als het kan, wil je zinsinterpunctie als losse tokens behouden, maar '#1' als één token laten staan.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

De string is beschikbaar in je werkruimte als my_string, en de patronen zijn vooraf geladen als pattern1, pattern2, pattern3 en pattern4.

Daarnaast is regexp_tokenize geïmporteerd uit nltk.tokenize. Je kunt regexp_tokenize(string, pattern) gebruiken met my_string en een van de patronen als argumenten om zelf te experimenteren en te zien welke de beste tokenizer is.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Begin oefening