1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Translation with Keras

Connected

Cvičení

Část 2: Prozkoumání datasetu

Teď se podíváš blíže na některé vlastnosti datasetu. Konkrétně zjistíš průměrnou délku (tj. počet slov) všech vět a velikost slovní zásoby anglického datasetu.

Pro toto cvičení je připraven anglický dataset en_text obsahující seznam anglických vět. Použiješ pythonovou funkci <list>.extend(), která se liší od funkce <list>.append(). Rozdíl si ukažme na příkladu: pokud a=[1,2,3] a b=[4,5], pak a.append(b) vrátí seznam [1,2,3,[4,5]], zatímco a.extend(b) vrátí [1,2,3,4,5].

Pokyny

100 XP
  • Vypočítej délky jednotlivých vět pomocí funkce split() a funkce len() při iteraci přes en_text.
  • Vypočítej průměrnou délku vět pomocí numpy.
  • Naplň seznam all_words v těle cyklu for tak, že do něj přidáš všechna slova nalezená ve větách po tokenizaci.
  • Převeď seznam all_words na objekt typu set a vypočítej jeho délku (velikost).