MulaiMulai sekarang secara gratis

Tokenisasi kata dengan NLTK

Di sini, Anda akan menggunakan adegan pertama dari Monty Python's Holy Grail, yang sudah dimuat sebagai scene_one. Silakan periksa di IPython Shell!

Tugas Anda dalam latihan ini adalah menggunakan word_tokenize dan sent_tokenize dari nltk.tokenize untuk melakukan tokenisasi kata dan kalimat dari string Python — dalam hal ini, adegan pertama dari Monty Python's Holy Grail.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

  • Impor fungsi sent_tokenize dan word_tokenize dari nltk.tokenize.
  • Tokenisasikan semua kalimat dalam scene_one menggunakan fungsi sent_tokenize().
  • Tokenisasikan kalimat keempat dalam sentences, yang dapat Anda akses sebagai sentences[3], menggunakan fungsi word_tokenize().
  • Temukan token unik di seluruh adegan dengan menggunakan word_tokenize() pada scene_one lalu mengonversinya menjadi himpunan menggunakan set().
  • Cetak token unik yang ditemukan. Ini sudah dilakukan untuk Anda, jadi klik 'Kirim Jawaban' untuk melihat hasilnya!

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Edit dan Jalankan Kode