Bölüm 2: Veri kümesini keşfetme
Şimdi veri kümesinin bazı özelliklerini keşfedeceksin. Özellikle, tüm cümlelerin ortalama uzunluğunu (yani kelime sayısını) ve İngilizce veri kümesinin kelime dağarcığı boyutunu belirleyeceksin.
Bu egzersizde, İngilizce cümlelerin bir listesini içeren İngilizce veri kümesi en_text sağlandı. Bu egzersizde <list>.append() fonksiyonunun farklı bir varyantı olan <list>.extend() adlı bir Python liste ilişkili fonksiyonunu kullanacaksın. Aradaki farkı bir örnekle anlayalım. Diyelim ki a=[1,2,3] ve b=[4,5]. a.append(b) sonucu [1,2,3,[4,5]] olurken, a.extend(b) sonucu [1,2,3,4,5] olur.
Bu egzersiz
Keras ile Machine Translation
kursunun bir parçasıdırEgzersiz talimatları
en_textüzerinde yinelerkensplit()velen()fonksiyonlarını kullanarak her cümlenin uzunluğunu hesapla.- Cümlelerin ortalama uzunluğunu
numpykullanarak hesapla. - Döngü gövdesinde, token'laştırmadan sonra cümlelerde bulunan tüm kelimeleri ekleyerek
all_wordslistesini doldur. all_wordslistesini birsetnesnesine dönüştür ve bu kümenin uzunluğunu/boyutunu hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)