LSTM'lerle metin tahmini
Bu ve sonraki egzersizlerde, küçük bir metin veri kümesini kullanarak bir sonraki kelimeyi tahmin edebilen basit bir LSTM modeli oluşturacaksın.
Bu veri kümesi, The Lord of the Ring filmlerinden temizlenmiş alıntılardan oluşuyor. Bunları text değişkeninde bulabilirsin.
Bu text değişkenini uzunluğu 4 olan sequences dizilerine dönüştürecek ve Keras Tokenizer'ını kullanarak modelin için öznitelik ve etiketleri hazırlayacaksın!
Keras Tokenizer senin için zaten içe aktarıldı. Her bir benzersiz kelimeye benzersiz bir numara atar ve eşlemeleri bir sözlükte saklar. Bu önemlidir çünkü model sayılarla çalışır; ancak daha sonra çıktıdaki sayıları tekrar kelimelere çözmek isteyeceğiz.
Bu egzersiz, kursun bir parçasıdır
Keras ile Deep Learning'e Giriş
Egzersiz talimatları
- Metni
.split()kullanarak bir kelime dizisine ayır. - Her seferinde bir kelime kaydırarak 4 kelimelik cümleler oluştur.
- Bir
Tokenizer()örnekle ve ardından.fit_on_texts()ile cümlelere uydur. sentencesdizisini.texts_to_sequences()çağırarak sayılardan oluşan bir dizine dönüştür.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Split text into an array of words
words = ____.____
# Make sentences of 4 words each, moving one word at a time
sentences = []
for i in range(4, len(words)):
sentences.append(' '.join(words[i-____:i]))
# Instantiate a Tokenizer, then fit it on the sentences
tokenizer = ____
tokenizer.____(____)
# Turn sentences into a sequence of numbers
sequences = tokenizer.____(____)
print("Sentences: \n {} \n Sequences: \n {}".format(sentences[:5],sequences[:5]))