BaşlayınÜcretsiz Başlayın

Bölüm 2: Veri kümesini keşfetme

Şimdi veri kümesinin bazı özelliklerini keşfedeceksin. Özellikle, tüm cümlelerin ortalama uzunluğunu (yani kelime sayısını) ve İngilizce veri kümesinin kelime dağarcığı boyutunu belirleyeceksin.

Bu egzersizde, İngilizce cümlelerin bir listesini içeren İngilizce veri kümesi en_text sağlandı. Bu egzersizde <list>.append() fonksiyonunun farklı bir varyantı olan <list>.extend() adlı bir Python liste ilişkili fonksiyonunu kullanacaksın. Aradaki farkı bir örnekle anlayalım. Diyelim ki a=[1,2,3] ve b=[4,5]. a.append(b) sonucu [1,2,3,[4,5]] olurken, a.extend(b) sonucu [1,2,3,4,5] olur.

Bu egzersiz

Keras ile Machine Translation

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • en_text üzerinde yinelerken split() ve len() fonksiyonlarını kullanarak her cümlenin uzunluğunu hesapla.
  • Cümlelerin ortalama uzunluğunu numpy kullanarak hesapla.
  • Döngü gövdesinde, token'laştırmadan sonra cümlelerde bulunan tüm kelimeleri ekleyerek all_words listesini doldur.
  • all_words listesini bir set nesnesine dönüştür ve bu kümenin uzunluğunu/boyutunu hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)
Kodu Düzenle ve Çalıştır