Tokenisasi kata dengan NLTK
Di sini, Anda akan menggunakan adegan pertama dari Monty Python's Holy Grail, yang sudah dimuat sebagai scene_one. Silakan periksa di IPython Shell!
Tugas Anda dalam latihan ini adalah menggunakan word_tokenize dan sent_tokenize dari nltk.tokenize untuk melakukan tokenisasi kata dan kalimat dari string Python — dalam hal ini, adegan pertama dari Monty Python's Holy Grail.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Impor fungsi
sent_tokenizedanword_tokenizedarinltk.tokenize. - Tokenisasikan semua kalimat dalam
scene_onemenggunakan fungsisent_tokenize(). - Tokenisasikan kalimat keempat dalam
sentences, yang dapat Anda akses sebagaisentences[3], menggunakan fungsiword_tokenize(). - Temukan token unik di seluruh adegan dengan menggunakan
word_tokenize()padascene_onelalu mengonversinya menjadi himpunan menggunakanset(). - Cetak token unik yang ditemukan. Ini sudah dilakukan untuk Anda, jadi klik 'Kirim Jawaban' untuk melihat hasilnya!
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)