Deel 1: De gegevensset verkennen
Je gaat nu de gegevensset een beetje verkennen. Eerst krijg je een idee van hoe de data eruitziet. Je print een deel van de data en leert hoe je de zinnen in de data tokeniseert naar losse woorden. Voor het Engels lijkt tokenisatie een triviale taak, maar er zijn talen, zoals Japans, die niet zo consequent gescheiden worden als Engels.
Voor deze oefening krijg je twee gegevenssets: en_text en fr_text. en_text bevat een lijst met Engelse zinnen en fr_text bevat de bijbehorende lijst met Franse zinnen.
Deze oefening maakt deel uit van de cursus
Machine Translation met Keras
Oefeninstructies
- Schrijf een
zip()-aanroep die door de eerste 5 zinnen van de Engelse zinnen (en_text) en Franse zinnen (fr_text) itereert. - Haal de eerste Engelse zin op uit
en_text. - Tokeniseer de verkregen zin met de
split()-functie en het spatie-teken en ken dit toe aanfirst_words. - Print de getokeniseerde woorden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):
print("English: ", en_sent)
print("\tFrench: ", fr_sent)
# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)