Část 1: Prozkoumání datasetu

Teď se trochu blíže podíváme na dataset. Nejprve si udělej představu o tom, jak data vypadají. Vypíšeš část dat a naučíš se, jak tokenizovat věty na jednotlivá slova. V angličtině se tokenizace zdá být jednoduchá, ale existují jazyky jako japonština, kde jsou hranice mezi slovy mnohem méně zřejmé než v angličtině.

Pro toto cvičení máš k dispozici dva datasety: en_text a fr_text. Dataset en_text obsahuje seznam anglických vět a fr_text obsahuje odpovídající seznam francouzských vět.

Toto cvičení je součástí kurzu

Machine Translation with Keras

Zobrazit kurz

Pokyny k cvičení

Napiš funkci zip(), která projde prvních 5 anglických vět (en_text) a francouzských vět (fr_text).
Získej první anglickou větu z en_text.
Tokenizuj získanou větu pomocí funkce split() a mezery a výsledek ulož do proměnné first_words.
Vypiš tokenizovaná slova.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Iterate through the first 5 English and French sentences in the dataset
for en_sent, fr_sent in zip(____, ____):  
  print("English: ", en_sent)
  print("\tFrench: ", fr_sent)

# Get the first sentence of the English dataset
first_sent = ____[____]
print("First sentence: ", first_sent)
# Tokenize the first sentence
____ = ____.____(____)
# Print the tokenized words
print("\tWords: ", ____)

Upravit a spustit kód