Speciale tokens toevoegen
Je gaat nu sos- (markeert het begin) en eos- (markeert het einde) tokens aan de zinnen toevoegen. Zoals al besproken is deze stap optioneel voor het model dat je nu hebt, maar deze tokens zijn wel nodig voor een model dat je in een later hoofdstuk gaat implementeren.
Om deze speciale tokens toe te voegen, gebruik je de Python-functie string.join(). string.join() voegt een lijst met strings samen tot één string met behulp van een scheidingsteken. Als je bijvoorbeeld ['datacamp', 'is', 'awesome'] wilt omzetten naar 'datacamp is awesome', kun je " ".join(['datacamp', 'is', 'awesome']) gebruiken, waarbij " " (dus een spatie) het scheidingsteken is.
Voor deze oefening is alvast een kleine steekproef van 10 Franse zinnen geïmporteerd.
Deze oefening maakt deel uit van de cursus
Machine Translation met Keras
Oefeninstructies
- Loop door de lijst met Franse zinnen (
fr_text). - Voeg een
"sos"-token toe aan het begin en een"eos"-token aan het einde van elke zin met behulp van de functiestring.join(). - Voeg de aangepaste zin toe aan
fr_text_new. - Print de aangepaste zin
sent_new.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
fr_text_new = []
# Loop through all sentences in fr_text
for sent in ____:
print("Before adding tokens: ", sent)
# Add sos and eos tokens using string.join
sent_new = " ".____([____, sent, ____])
# Append the modified sentence to fr_text_new
____.____(____)
# Print sentence after adding tokens
print("After adding tokens: ", ____, '\n')