BaşlayınÜcretsiz Başlayın

Bölüm 1: Veri kümesini keşfetme

Şimdi veri kümesini biraz keşfedeceksin. Önce verinin nasıl göründüğüne dair bir fikir edineceksin. Bazı örnekleri yazdıracak ve cümleleri tek tek sözcüklere ayırmak (tokenleştirmek) için nasıl işlem yapacağını öğreneceksin. İngilizce için tokenleştirme önemsiz bir iş gibi görünse de, Japonca gibi İngilizce kadar tutarlı biçimde ayrılmayan diller de vardır.

Bu egzersiz için sana iki veri kümesi verildi: en_text ve fr_text. en_text, İngilizce cümlelerden oluşan bir liste içerir; fr_text ise bunların karşılık geldiği Fransızca cümle listesini içerir.

Bu egzersiz

Keras ile Machine Translation

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • İngilizce cümlelerin (en_text) ve Fransızca cümlelerin (fr_text) ilk 5 cümlesi üzerinde yineleme yapan bir zip() fonksiyonu yaz.
  • en_text içinden ilk İngilizce cümleyi al.
  • Elde ettiğin cümleyi boşluk karakterini kullanarak split() fonksiyonuyla tokenleştir ve first_words değişkenine ata.
  • Tokenleştirilmiş sözcükleri yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)
Kodu Düzenle ve Çalıştır