Keras ile cümleleri tokenleştirme
Burada Keras Tokenizer ile bizzat çalışacaksın. Keras Tokenizer, birkaç satır kodla kritik metin işleme adımlarını yapmana yardım eden harika bir araçtır. Örneğin, Keras Tokenizer tek bir fonksiyon çağrısıyla sözlüğündeki kelimeleri otomatik olarak ID’lere eşler. Burada bunu daha ayrıntılı öğreneceksin.
Bir Keras Tokenizer nesnesi oluşturup onu bazı metinler üzerinde eğiteceksin; böylece Tokenizer, kelimelerden ve bunlara karşılık gelen ID’lerden oluşan bir sözlük kurabilecek. Tokenizer’ı eğitmek için kullanılan metinler Udacity Github Repo kaynağından alınmıştır.
Bu egzersiz
Keras ile Machine Translation
kursunun bir parçasıdırEgzersiz talimatları
- Bir Keras Tokenizer nesnesi tanımla.
- Tokenizer'ı
en_textüzerinde uygula (fit et). - Verilen
["january", "apples", "summer"]listesinde herwkelimesi için kelime ID’sini al. - Kelimeyi ve buna karşılık gelen ID’yi yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)