Memilih sebuah tokenizer
Diberikan string berikut, pola manakah di bawah ini yang merupakan tokenizer terbaik? Jika memungkinkan, Anda ingin mempertahankan tanda baca kalimat sebagai token terpisah, tetapi membuat '#1' tetap menjadi satu token.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
String tersebut tersedia di workspace Anda sebagai my_string, dan polanya telah dimuat sebelumnya sebagai pattern1, pattern2, pattern3, dan pattern4.
Selain itu, regexp_tokenize telah diimpor dari nltk.tokenize. Anda dapat menggunakan regexp_tokenize(string, pattern) dengan my_string dan salah satu pola sebagai argumen untuk mencoba sendiri dan melihat mana yang merupakan tokenizer terbaik.
Latihan ini merupakan bagian dari kursus
Pengantar Natural Language Processing di Python
Latihan interaktif langsung
Ubah teori menjadi aksi dengan salah satu latihan interaktif kami
Mulai latihan