1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Translation with Keras

Connected

Cvičení

Část 1: Prozkoumání datasetu

Teď se trochu blíže podíváme na dataset. Nejprve si udělej představu o tom, jak data vypadají. Vypíšeš část dat a naučíš se, jak tokenizovat věty na jednotlivá slova. V angličtině se tokenizace zdá být jednoduchá, ale existují jazyky jako japonština, kde jsou hranice mezi slovy mnohem méně zřejmé než v angličtině.

Pro toto cvičení máš k dispozici dva datasety: en_text a fr_text. Dataset en_text obsahuje seznam anglických vět a fr_text obsahuje odpovídající seznam francouzských vět.

Pokyny

100 XP
  • Napiš funkci zip(), která projde prvních 5 anglických vět (en_text) a francouzských vět (fr_text).
  • Získej první anglickou větu z en_text.
  • Tokenizuj získanou větu pomocí funkce split() a mezery a výsledek ulož do proměnné first_words.
  • Vypiš tokenizovaná slova.