Teil 1: Den Datensatz checken

Jetzt kannst du den Datensatz ein bisschen erkunden. Du bekommst erst mal einen Eindruck davon, wie die Daten aussehen. Du wirst ein paar Daten ausdrucken und lernen, wie man die Sätze in den Daten in einzelne Wörter zerlegt. Für die englische Sprache scheint die Tokenisierung ein Kinderspiel zu sein, aber es gibt Sprachen wie Japanisch, die nicht so klar abgegrenzt sind wie Englisch.

Für diese Übung hast du zwei Datensätze bekommen: en_text und fr_text. Die Datei „ en_text “ hat eine Liste englischer Sätze, während die Datei „ fr_text “ die passende Liste französischer Sätze hat.

Diese Übung ist Teil des Kurses

Maschinelle Übersetzung mit Keras

Kurs anzeigen

Anleitung zur Übung

Schreib eine Funktion namens „ zip() “, die die ersten fünf Sätze der englischen Sätze (en_text) und der französischen Sätze (fr_text) durchläuft.
Hol dir den ersten englischen Satz von en_text.
Tokenisiere den erhaltenen Satz mit der Funktion „ split() “ und dem Leerzeichen und weise ihn „ first_words “ zu.
Druck die tokenisierten Wörter aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)

Code bearbeiten und ausführen