Teil 1: Den Datensatz checken
Jetzt kannst du den Datensatz ein bisschen erkunden. Du bekommst erst mal einen Eindruck davon, wie die Daten aussehen. Du wirst ein paar Daten ausdrucken und lernen, wie man die Sätze in den Daten in einzelne Wörter zerlegt. Für die englische Sprache scheint die Tokenisierung ein Kinderspiel zu sein, aber es gibt Sprachen wie Japanisch, die nicht so klar abgegrenzt sind wie Englisch.
Für diese Übung hast du zwei Datensätze bekommen: en_text
und fr_text
. Die Datei „ en_text
“ hat eine Liste englischer Sätze, während die Datei „ fr_text
“ die passende Liste französischer Sätze hat.
Diese Übung ist Teil des Kurses
Maschinelle Übersetzung mit Keras
Anleitung zur Übung
- Schreib eine Funktion namens „
zip()
“, die die ersten fünf Sätze der englischen Sätze (en_text
) und der französischen Sätze (fr_text
) durchläuft. - Hol dir den ersten englischen Satz von
en_text
. - Tokenisiere den erhaltenen Satz mit der Funktion „
split()
“ und dem Leerzeichen und weise ihn „first_words
“ zu. - Druck die tokenisierten Wörter aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):
print("English: ", en_sent)
print("\tFrench: ", fr_sent)
# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)