MulaiMulai sekarang secara gratis

Mengendalikan kosakata dengan Tokenizer

Mari kita telaah lebih dalam cara kerja Tokenizer. Pada latihan ini, Anda akan mempelajari cara mengonversi sebuah kalimat apa pun menjadi sebuah urutan menggunakan Tokenizer yang telah dilatih. Selain itu, Anda akan belajar mengendalikan ukuran kosakata dari Tokenizer. Anda juga akan menyelidiki apa yang terjadi pada kata-kata di luar kosakata (OOV) ketika Anda membatasi ukuran kosakata sebuah Tokenizer.

Untuk latihan ini, Anda telah disediakan Tokenizer en_tok yang sebelumnya Anda buat. Tokenizer tersebut sudah diimpor untuk Anda.

Latihan ini adalah bagian dari kursus

Penerjemahan Mesin dengan Keras

Lihat Kursus

Petunjuk latihan

  • Konversikan kalimat berikut menjadi sebuah urutan menggunakan Tokenizer en_tok sebelumnya: she likes grapefruit , peaches , and lemons .
  • Buat Tokenizer baru, en_tok_new dengan ukuran kosakata 50 dan kata di luar kosakata UNK.
  • Sesuaikan tokenizer baru pada data en_text.
  • Konversikan kalimat she likes grapefruit , peaches , and lemons . menjadi sebuah urutan dengan en_tok_new.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)

# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)

# Fit the tokenizer on en_text
en_tok_new.____(____)

# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])
Edit dan Jalankan Kode