Memilih sebuah tokenizer
Diberikan string berikut, pola manakah di bawah ini yang merupakan tokenizer terbaik? Jika memungkinkan, Anda ingin mempertahankan tanda baca kalimat sebagai token terpisah, tetapi membuat '#1' tetap menjadi satu token.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
String tersebut tersedia di workspace Anda sebagai my_string, dan polanya telah dimuat sebelumnya sebagai pattern1, pattern2, pattern3, dan pattern4.
Selain itu, regexp_tokenize telah diimpor dari nltk.tokenize. Anda dapat menggunakan regexp_tokenize(string, pattern) dengan my_string dan salah satu pola sebagai argumen untuk mencoba sendiri dan melihat mana yang merupakan tokenizer terbaik.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga