Deel 1: De gegevensset verkennen

Je gaat nu de gegevensset een beetje verkennen. Eerst krijg je een idee van hoe de data eruitziet. Je print een deel van de data en leert hoe je de zinnen in de data tokeniseert naar losse woorden. Voor het Engels lijkt tokenisatie een triviale taak, maar er zijn talen, zoals Japans, die niet zo consequent gescheiden worden als Engels.

Voor deze oefening krijg je twee gegevenssets: en_text en fr_text. en_text bevat een lijst met Engelse zinnen en fr_text bevat de bijbehorende lijst met Franse zinnen.

Deze oefening maakt deel uit van de cursus

Machine Translation met Keras

Cursus bekijken

Oefeninstructies

Schrijf een zip()-aanroep die door de eerste 5 zinnen van de Engelse zinnen (en_text) en Franse zinnen (fr_text) itereert.
Haal de eerste Engelse zin op uit en_text.
Tokeniseer de verkregen zin met de split()-functie en het spatie-teken en ken dit toe aan first_words.
Print de getokeniseerde woorden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)

Code bewerken en uitvoeren