Tokenizer ile sözlüğü kontrol etme

Tokenizer'ın nasıl çalıştığını biraz daha derinlemesine inceleyelim. Bu egzersizde, eğitilmiş bir Tokenizer kullanarak herhangi bir cümleyi bir diziye nasıl dönüştüreceğini öğreneceksin. Ayrıca Tokenizerın sözlük boyutunu nasıl kontrol edeceğini de göreceksin. Bunun yanında, bir Tokenizerın sözlük boyutunu sınırladığında sözlük dışı (OOV) kelimelere ne olduğunu inceleyeceksin.

Bu egzersiz için, daha önce uyguladığın en_tok Tokenizerı sana sağladık. Tokenizer senin için içe aktarıldı.

Bu egzersiz

Keras ile Machine Translation

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

Aşağıdaki cümleyi önceki en_tok Tokenizer'ını kullanarak bir diziye dönüştür: she likes grapefruit , peaches , and lemons .
50 sözcüklük bir sözlük boyutuna ve sözlük dışı kelime olarak UNK değerine sahip yeni bir Tokenizer (en_tok_new) oluştur.
Yeni tokenizer'ı en_text verisi üzerinde uygula (fit et).
she likes grapefruit , peaches , and lemons . cümlesini en_tok_new ile bir diziye dönüştür.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)

# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)

# Fit the tokenizer on en_text
en_tok_new.____(____)

# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])

Kodu Düzenle ve Çalıştır