Girdi metnini hazırlama
Videoda girdi ve çıktı metinlerinin nasıl hazırlandığını gördün. Bu egzersizin amacı, tüm cümleleri en uzun cümle uzunluğuna göre doldurma (padding) yaklaşımını göstermek; böylece hiçbir bilgi kaybolmaz.
RNN modelleri girdilerin aynı boyutta olmasını istediği için, bu yöntemle tüm cümleleri doldurur, daha kısa olanlara sıfırlar eklersin; uzun olanları kesmeden korursun.
Ayrıca, belirteçleri temsil etmek için karakterler yerine kelimeler kullanacaksın; bu, NMT modelleri için yaygın bir yaklaşımdır.
Portekizce metinler pt_sentences değişkenine, eğitilmiş bir tokenizer ise input_tokenizer değişkenine yüklenmiştir.
Bu egzersiz
Keras ile Dil Modellemesi için Yinelenen Sinir Ağları (RNN)
kursunun bir parçasıdırEgzersiz talimatları
- Her cümlede
.split()yöntemini kullanarak boşluklara göre böl ve cümledeki kelime sayısını elde et. - Metni indeks dizilerine dönüştürmek için
.texts_to_sequences()yöntemini kullan. - Elde edilen en büyük cümle uzunluğunu kullanarak doldurma (padding) yap.
- Dönüştürülen ilk cümleyi yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Get maximum length of the sentences
pt_length = max([len(sentence.____) for sentence in pt_sentences])
# Transform text to sequence of numerical indexes
X = input_tokenizer.____(pt_sentences)
# Pad the sequences
X = pad_sequences(X, maxlen=____, padding='post')
# Print first sentence
print(pt_sentences[0])
# Print transformed sentence
print(____)