1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Procvičení: vizualizace dat

Zkus využít nově nabyté dovednosti a pomocí matplotlib zjistit a zobrazit počet slov na každém řádku skriptu. Skript Monty Python a Svatý Grál je již načtený – stačí použít regex k nalezení slov na každém řádku.

List comprehensions ti výpočty výrazně urychlí. Například: my_lines = [tokenize(l) for l in lines] zavolá funkci tokenize na každý řádek ze seznamu lines a výsledek uloží do proměnné my_lines.

Celý skript máš k dispozici v proměnné holy_grail. Pusť se do toho!

Pokyny

100 XP
  • Rozděl skript holy_grail na řádky pomocí znaku nového řádku ('\n').
  • Uvnitř list comprehension použij re.sub() k odstranění poznámek jako ARTHUR: nebo SOLDIER #1. Vzor je již připravený.
  • Pomocí list comprehension tokenizuj lines funkcí regexp_tokenize() tak, aby zůstala pouze slova. Vzor pro slova je "\w+".
  • Pomocí list comprehension vytvoř seznam délek řádků s názvem line_num_words.
    • Jako proměnnou iterátoru použij t_line pro průchod přes tokenized_lines a délku každého řádku zjisti pomocí funkce len().
  • Vykresli histogram line_num_words pomocí plt.hist(). Nezapomeň přidat také plt.show() pro zobrazení grafu.