Bölüm 1: Veri kümesini keşfetme
Şimdi veri kümesini biraz keşfedeceksin. Önce verinin nasıl göründüğüne dair bir fikir edineceksin. Bazı örnekleri yazdıracak ve cümleleri tek tek sözcüklere ayırmak (tokenleştirmek) için nasıl işlem yapacağını öğreneceksin. İngilizce için tokenleştirme önemsiz bir iş gibi görünse de, Japonca gibi İngilizce kadar tutarlı biçimde ayrılmayan diller de vardır.
Bu egzersiz için sana iki veri kümesi verildi: en_text ve fr_text. en_text, İngilizce cümlelerden oluşan bir liste içerir; fr_text ise bunların karşılık geldiği Fransızca cümle listesini içerir.
Bu egzersiz
Keras ile Machine Translation
kursunun bir parçasıdırEgzersiz talimatları
- İngilizce cümlelerin (
en_text) ve Fransızca cümlelerin (fr_text) ilk 5 cümlesi üzerinde yineleme yapan birzip()fonksiyonu yaz. en_textiçinden ilk İngilizce cümleyi al.- Elde ettiğin cümleyi boşluk karakterini kullanarak
split()fonksiyonuyla tokenleştir vefirst_wordsdeğişkenine ata. - Tokenleştirilmiş sözcükleri yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):
print("English: ", en_sent)
print("\tFrench: ", fr_sent)
# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)