Sätze mit Keras tokenisieren
Hier kannst du dich mit dem Keras-Framework „ Tokenizer
“ vertraut machen. Die Keras- Tokenizer
ist ein super Tool, mit dem du wichtige Textverarbeitung mit nur ein paar Zeilen Code erledigen kannst. Zum Beispiel ordnet die Keras-Funktion „ Tokenizer
“ die Wörter in deinem Vokabular mit einem einzigen Funktionsaufruf automatisch IDs zu. Hier erfährst du mehr darüber.
Du wirst ein Keras-Objekt „ Tokenizer
” erstellen und es an einen Text anpassen, damit „ Tokenizer
” ein Wörterbuch mit Wörtern und den dazugehörigen IDs erstellen kann. Der Text, mit dem das „ Tokenizer
“ trainiert wurde, kommt aus dem Udacity Github Repo.
Diese Übung ist Teil des Kurses
Maschinelle Übersetzung mit Keras
Anleitung zur Übung
- Definiere ein Keras-Tokenizer-Objekt.
- Pass den Tokenizer auf „
en_text
“ an. - Hol dir die Wort-ID für jedes Wort „
w
” in der Liste „["january", "apples", "summer"]
”. - Druck das Wort und die dazugehörige ID aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)