MulaiMulai sekarang secara gratis

Memilih sebuah tokenizer

Diberikan string berikut, pola manakah di bawah ini yang merupakan tokenizer terbaik? Jika memungkinkan, Anda ingin mempertahankan tanda baca kalimat sebagai token terpisah, tetapi membuat '#1' tetap menjadi satu token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

String tersebut tersedia di workspace Anda sebagai my_string, dan polanya telah dimuat sebelumnya sebagai pattern1, pattern2, pattern3, dan pattern4.

Selain itu, regexp_tokenize telah diimpor dari nltk.tokenize. Anda dapat menggunakan regexp_tokenize(string, pattern) dengan my_string dan salah satu pola sebagai argumen untuk mencoba sendiri dan melihat mana yang merupakan tokenizer terbaik.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga