Cümlelere dolgu (padding) uygulama

Şimdi, ileride verileri sinirsel makine çevirisi (NMT) modelinin kabul ettiği formata kolayca dönüştürmek için kullanacağın sents2seqs() adlı bir fonksiyonu uygulayacaksın. sents2seqs() bir cümle dizgesi listesini alır ve

Cümleleri kimlik (ID) dizileri listesine dönüştürür,
Cümlelere eşit uzunlukta olacak şekilde dolgu uygular ve
İsteğe bağlı olarak ID’leri onehot vektörlere çevirir.

Sana, veriler üzerinde zaten eğitilmiş bir Tokenizer olan en_tok sağlandı. Ayrıca sents2seqs() fonksiyonunu uygularken kullanılmayan input_type adlı bir argüman göreceksin. İleride bu input_type, dizi uzunluğu ve sözcük dağarcığı boyutu gibi dile bağlı parametreleri değiştirmek için kullanılacak.

Bu egzersiz, kursun bir parçasıdır

Keras ile Machine Translation

Kursa Göz Atın

Egzersiz talimatları

sentences öğelerini en_tok Tokenizer kullanarak dizilere dönüştür.
Dizileri belirtilen pad_type dolgu türüyle sabit en_len uzunluğa kadar doldur ve kesme işlemi için post kullan.
preproc_text sözcük ID’lerini to_categorical() fonksiyonuyla uzunluğu en_vocab olan onehot vektörlere dönüştür.
sentence ifadesini sents2seqs() yöntemiyle pre dolgu kullanarak doldurulmuş bir diziye dönüştür.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

def sents2seqs(input_type, sentences, onehot=False, pad_type='post'):
	# Convert sentences to sequences      
    encoded_text = ____.____(sentences)
    # Pad sentences to en_len
    preproc_text = ____(____, padding=____, truncating=____, maxlen=____)
    if onehot:
		# Convert the word IDs to onehot vectors
        preproc_text = ____(____, num_classes=____)
    return preproc_text
sentence = 'she likes grapefruit , peaches , and lemons .'  
# Convert a sentence to sequence by pre-padding the sentence
pad_seq = sents2seqs('source', [____], pad_type=____)

Kodu Düzenle ve Çalıştır