LSTM'lerle metin tahmini
Bu ve sonraki egzersizlerde, küçük bir metin veri kümesini kullanarak bir sonraki kelimeyi tahmin edebilen basit bir LSTM modeli oluşturacaksın.
Bu veri kümesi, The Lord of the Ring filmlerinden temizlenmiş alıntılardan oluşuyor. Bunları text değişkeninde bulabilirsin.
Bu text değişkenini uzunluğu 4 olan sequences dizilerine dönüştürecek ve Keras Tokenizer'ını kullanarak modelin için öznitelik ve etiketleri hazırlayacaksın!
Keras Tokenizer senin için zaten içe aktarıldı. Her bir benzersiz kelimeye benzersiz bir numara atar ve eşlemeleri bir sözlükte saklar. Bu önemlidir çünkü model sayılarla çalışır; ancak daha sonra çıktıdaki sayıları tekrar kelimelere çözmek isteyeceğiz.
Bu egzersiz
Keras ile Deep Learning'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Metni
.split()kullanarak bir kelime dizisine ayır. - Her seferinde bir kelime kaydırarak 4 kelimelik cümleler oluştur.
- Bir
Tokenizer()örnekle ve ardından.fit_on_texts()ile cümlelere uydur. sentencesdizisini.texts_to_sequences()çağırarak sayılardan oluşan bir dizine dönüştür.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Split text into an array of words
words = ____.____
# Make sentences of 4 words each, moving one word at a time
sentences = []
for i in range(4, len(words)):
sentences.append(' '.join(words[i-____:i]))
# Instantiate a Tokenizer, then fit it on the sentences
tokenizer = ____
tokenizer.____(____)
# Turn sentences into a sequence of numbers
sequences = tokenizer.____(____)
print("Sentences: \n {} \n Sequences: \n {}".format(sentences[:5],sequences[:5]))