Mengendalikan kosakata dengan Tokenizer
Mari kita telaah lebih dalam cara kerja Tokenizer. Pada latihan ini, Anda akan mempelajari cara mengonversi sebuah kalimat apa pun menjadi sebuah urutan menggunakan Tokenizer yang telah dilatih. Selain itu, Anda akan belajar mengendalikan ukuran kosakata dari Tokenizer. Anda juga akan menyelidiki apa yang terjadi pada kata-kata di luar kosakata (OOV) ketika Anda membatasi ukuran kosakata sebuah Tokenizer.
Untuk latihan ini, Anda telah disediakan Tokenizer en_tok yang sebelumnya Anda buat. Tokenizer tersebut sudah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Penerjemahan Mesin dengan Keras
Petunjuk latihan
- Konversikan kalimat berikut menjadi sebuah urutan menggunakan
Tokenizeren_toksebelumnya:she likes grapefruit , peaches , and lemons . - Buat
Tokenizerbaru,en_tok_newdengan ukuran kosakata 50 dan kata di luar kosakataUNK. - Sesuaikan tokenizer baru pada data
en_text. - Konversikan kalimat
she likes grapefruit , peaches , and lemons .menjadi sebuah urutan denganen_tok_new.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])