Bölüm 2: Veri kümesini keşfetme
Şimdi veri kümesinin bazı özelliklerini keşfedeceksin. Özellikle, tüm cümlelerin ortalama uzunluğunu (yani kelime sayısını) ve İngilizce veri kümesinin kelime dağarcığı boyutunu belirleyeceksin.
Bu egzersizde, İngilizce cümlelerin bir listesini içeren İngilizce veri kümesi en_text sağlandı. Bu egzersizde <list>.append() fonksiyonunun farklı bir varyantı olan <list>.extend() adlı bir Python liste ilişkili fonksiyonunu kullanacaksın. Aradaki farkı bir örnekle anlayalım. Diyelim ki a=[1,2,3] ve b=[4,5]. a.append(b) sonucu [1,2,3,[4,5]] olurken, a.extend(b) sonucu [1,2,3,4,5] olur.
Bu egzersiz, kursun bir parçasıdır
Keras ile Machine Translation
Egzersiz talimatları
en_textüzerinde yinelerkensplit()velen()fonksiyonlarını kullanarak her cümlenin uzunluğunu hesapla.- Cümlelerin ortalama uzunluğunu
numpykullanarak hesapla. - Döngü gövdesinde, token'laştırmadan sonra cümlelerde bulunan tüm kelimeleri ekleyerek
all_wordslistesini doldur. all_wordslistesini birsetnesnesine dönüştür ve bu kümenin uzunluğunu/boyutunu hesapla.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)