1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Vytváření dat kontextového okna

Technika posuvného okna je užitečná pro algoritmy strojového učení, které pracují s daty kontextového okna.

V pracovním prostředí máš k dispozici tabulku text se sloupci id, word, part a title. Obsahuje kapitoly 9, 10, 11 a 12 knihy o Sherlocku Holmesovi. Slova jsou již zpracovaná a uspořádaná – každé slovo je na samostatném řádku. Každé slovo má jedinečný celočíselný index ve sloupci id. Slova s nižší hodnotou id se v textu vyskytují dříve, slova s vyšší hodnotou id pak později.

Prvních 10 řádků datasetu pro kapitolu 12 je vypsáno do konzole jako Table1. Prvních deset řádků požadovaného výsledku, omezeného na část 12 (Kapitola 12), je vypsáno do konzole jako Table2. V Table2 je „aktuální" slovo pro daný řádek uvedeno ve sloupci w3. Sloupce w1 a w2 obsahují dvě slova bezprostředně předcházející tomuto slovu. Sloupce w4 a w5 obsahují dvě slova bezprostředně následující.

Všimni si, že w1 a w2 jsou null na prvním řádku. Je to proto, že v části 12 se před slovem w3 (zde „xii") žádná předchozí slova nevyskytují.

Neváhej se podívat na snímky dostupné napravo od konzole, pokud si potřebuješ cokoliv z videa připomenout.

Pokyny

100 XP
  • Pro každý řádek získej dané slovo spolu s předchozími dvěma slovy a následujícími dvěma slovy.