Zinnen tokenizen met Keras

Hier ga je praktisch aan de slag met de Keras Tokenizer. De Keras Tokenizer is een handige utility waarmee je met een paar regels code cruciale tekstverwerking kunt doen. Zo kan de Keras Tokenizer met één functieaanroep automatisch de woorden in je vocabulaire aan IDs koppelen. Hier leer je dit in meer detail.

Je maakt een Keras Tokenizer-object en traint het op wat tekst, zodat de Tokenizer een woordenboek kan opbouwen met woorden en hun bijbehorende IDs. De tekst om de Tokenizer te trainen komt uit de Udacity Github Repo.

Deze oefening maakt deel uit van de cursus

Machine Translation met Keras

Bekijk cursus

Oefeninstructies

Definieer een Keras Tokenizer-object.
Train de tokenizer op en_text.
Haal de woord-ID op voor elk woord w in de lijst ["january", "apples", "summer"].
Print het woord en de bijbehorende ID.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)

Code bewerken en uitvoeren