Část 2: Prozkoumání datasetu

Teď se podíváš blíže na některé vlastnosti datasetu. Konkrétně zjistíš průměrnou délku (tj. počet slov) všech vět a velikost slovní zásoby anglického datasetu.

Pro toto cvičení je připraven anglický dataset en_text obsahující seznam anglických vět. Použiješ pythonovou funkci <list>.extend(), která se liší od funkce <list>.append(). Rozdíl si ukažme na příkladu: pokud a=[1,2,3] a b=[4,5], pak a.append(b) vrátí seznam [1,2,3,[4,5]], zatímco a.extend(b) vrátí [1,2,3,4,5].

Toto cvičení je součástí kurzu

Machine Translation with Keras

Zobrazit kurz

Pokyny k cvičení

Vypočítej délky jednotlivých vět pomocí funkce split() a funkce len() při iteraci přes en_text.
Vypočítej průměrnou délku vět pomocí numpy.
Naplň seznam all_words v těle cyklu for tak, že do něj přidáš všechna slova nalezená ve větách po tokenizaci.
Převeď seznam all_words na objekt typu set a vypočítej jeho délku (velikost).

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)

all_words = []
for sent in en_text:
  # Populate all_words with all the words in sentences
  all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)

Upravit a spustit kód