IniziaInizia gratis

Scegliere un tokenizer

Data la seguente stringa, quale dei pattern sotto è il tokenizer migliore? Se possibile, vuoi mantenere la punteggiatura della frase come token separati, ma fare in modo che '#1' resti un singolo token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

La stringa è disponibile nel tuo workspace come my_string, e i pattern sono stati pre-caricati rispettivamente come pattern1, pattern2, pattern3 e pattern4.

Inoltre, regexp_tokenize è stato importato da nltk.tokenize. Puoi usare regexp_tokenize(string, pattern) con my_string e uno dei pattern come argomenti per fare qualche prova e vedere quale sia il tokenizer migliore.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio