Spezielle Tokens hinzufügen

Jetzt lernst du, wie du die Tokens „ sos “ (markiert den Anfang) und „ eos “ (markiert das Ende) zu den Sätzen hinzufügst. Wie schon gesagt, ist dieser Schritt für dein aktuelles Modell optional, aber für ein Modell, das du in einem späteren Kapitel umsetzen wirst, wird er nötig sein.

Um diese speziellen Tokens hinzuzufügen, benutzt du die Python-Funktion „ string.join() “. „ string.join() “ verbindet eine Liste von Strings mit einem Trennzeichen zu einem einzigen String. Wenn du zum Beispiel ['datacamp', 'is', 'awesome'] in 'datacamp is awesome' umwandeln willst, kannst du " ".join(['datacamp', 'is', 'awesome']) verwenden, wobei " " (also das Leerzeichen) das Trennzeichen ist.

Für diese Übung wurden schon mal 10 französische Sätze als Beispiel importiert.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelle Übersetzung mit Keras</Kurs>

Kurs ansehen

Übungsanweisungen

Geh die Liste mit den französischen Sätzen durch (fr_text).
Füge mit der Funktion „ string.join() “ ein „ "sos" “-Token am Anfang und ein „ "eos" “-Token am Ende jedes Satzes ein.
Füge den geänderten Satz an fr_text_new an.
Druck den geänderten Satz aus: „ sent_new “.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

fr_text_new = []

# Loop through all sentences in fr_text
for sent in ____:
  
  print("Before adding tokens: ", sent)
  
  # Add sos and eos tokens using string.join
  sent_new = " ".____([____, sent, ____])
  # Append the modified sentence to fr_text_new
  ____.____(____)
  
  # Print sentence after adding tokens
  print("After adding tokens: ", ____, '\n')

Code bearbeiten und ausführen