Zinnen tokenizen met Keras
Hier ga je praktisch aan de slag met de Keras Tokenizer. De Keras Tokenizer is een handige utility waarmee je met een paar regels code cruciale tekstverwerking kunt doen. Zo kan de Keras Tokenizer met één functieaanroep automatisch de woorden in je vocabulaire aan IDs koppelen. Hier leer je dit in meer detail.
Je maakt een Keras Tokenizer-object en traint het op wat tekst, zodat de Tokenizer een woordenboek kan opbouwen met woorden en hun bijbehorende IDs. De tekst om de Tokenizer te trainen komt uit de Udacity Github Repo.
Deze oefening maakt deel uit van de cursus
Machine Translation met Keras
Oefeninstructies
- Definieer een Keras Tokenizer-object.
- Train de tokenizer op
en_text. - Haal de woord-ID op voor elk woord
win de lijst["january", "apples", "summer"]. - Print het woord en de bijbehorende ID.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)