Tokenisasi kata dengan NLTK

Di sini, Anda akan menggunakan adegan pertama dari Monty Python's Holy Grail, yang sudah dimuat sebagai scene_one. Silakan periksa di IPython Shell!

Tugas Anda dalam latihan ini adalah menggunakan word_tokenize dan sent_tokenize dari nltk.tokenize untuk melakukan tokenisasi kata dan kalimat dari string Python — dalam hal ini, adegan pertama dari Monty Python's Holy Grail.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

Impor fungsi sent_tokenize dan word_tokenize dari nltk.tokenize.
Tokenisasikan semua kalimat dalam scene_one menggunakan fungsi sent_tokenize().
Tokenisasikan kalimat keempat dalam sentences, yang dapat Anda akses sebagai sentences[3], menggunakan fungsi word_tokenize().
Temukan token unik di seluruh adegan dengan menggunakan word_tokenize() pada scene_one lalu mengonversinya menjadi himpunan menggunakan set().
Cetak token unik yang ditemukan. Ini sudah dilakukan untuk Anda, jadi klik 'Kirim Jawaban' untuk melihat hasilnya!

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)

Edit dan Jalankan Kode