BaşlayınÜcretsiz başlayın

Bölüm 2: Veri kümesini keşfetme

Şimdi veri kümesinin bazı özelliklerini keşfedeceksin. Özellikle, tüm cümlelerin ortalama uzunluğunu (yani kelime sayısını) ve İngilizce veri kümesinin kelime dağarcığı boyutunu belirleyeceksin.

Bu egzersizde, İngilizce cümlelerin bir listesini içeren İngilizce veri kümesi en_text sağlandı. Bu egzersizde <list>.append() fonksiyonunun farklı bir varyantı olan <list>.extend() adlı bir Python liste ilişkili fonksiyonunu kullanacaksın. Aradaki farkı bir örnekle anlayalım. Diyelim ki a=[1,2,3] ve b=[4,5]. a.append(b) sonucu [1,2,3,[4,5]] olurken, a.extend(b) sonucu [1,2,3,4,5] olur.

Bu egzersiz, kursun bir parçasıdır

Keras ile Machine Translation

Kursa Göz Atın

Egzersiz talimatları

  • en_text üzerinde yinelerken split() ve len() fonksiyonlarını kullanarak her cümlenin uzunluğunu hesapla.
  • Cümlelerin ortalama uzunluğunu numpy kullanarak hesapla.
  • Döngü gövdesinde, token'laştırmadan sonra cümlelerde bulunan tüm kelimeleri ekleyerek all_words listesini doldur.
  • all_words listesini bir set nesnesine dönüştür ve bu kümenin uzunluğunu/boyutunu hesapla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)
Kodu Düzenle ve Çalıştır