Tokenizer ile sözlüğü kontrol etme
Tokenizer'ın nasıl çalıştığını biraz daha derinlemesine inceleyelim. Bu egzersizde, eğitilmiş bir Tokenizer kullanarak herhangi bir cümleyi bir diziye nasıl dönüştüreceğini öğreneceksin. Ayrıca Tokenizerın sözlük boyutunu nasıl kontrol edeceğini de göreceksin. Bunun yanında, bir Tokenizerın sözlük boyutunu sınırladığında sözlük dışı (OOV) kelimelere ne olduğunu inceleyeceksin.
Bu egzersiz için, daha önce uyguladığın en_tok Tokenizerı sana sağladık. Tokenizer senin için içe aktarıldı.
Bu egzersiz
Keras ile Machine Translation
kursunun bir parçasıdırEgzersiz talimatları
- Aşağıdaki cümleyi önceki
en_tokTokenizer'ını kullanarak bir diziye dönüştür:she likes grapefruit , peaches , and lemons . - 50 sözcüklük bir sözlük boyutuna ve sözlük dışı kelime olarak
UNKdeğerine sahip yeni birTokenizer(en_tok_new) oluştur. - Yeni tokenizer'ı
en_textverisi üzerinde uygula (fit et). she likes grapefruit , peaches , and lemons .cümlesinien_tok_newile bir diziye dönüştür.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])