1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Hledání nejčastějších slovních sekvencí

Dříve jsme si ukázali, jak sestavit dotaz, který hledá slovní sekvence délky tři ("3-tice"). Tento dotaz jsme pak použili jako poddotaz v klasickém SQL dotazu k nalezení nejčastějších 3-tic v textovém dokumentu. Nyní provedeš podobný úkol – tentokrát pro nalezení nejčastějších 5-tic.

K dispozici máš DataFrame text_df, který obsahuje prvních pět kapitol textu o Sherlocku Holmesovi. DataFrame má sloupce: word, id, part, title. Sloupec id je celé číslo – platí, že slovo, které se v dokumentu vyskytuje později, má větší id než slovo před ním. Sloupec part rozděluje data do kapitol. DataFrame text_df je také zaregistrován jako dočasná tabulka text. Cílem je vytvořit dataset, kde každý řádek odpovídá jedné 5-tici a obsahuje sloupec count udávající, kolikrát se daná 5-tice v datasetu vyskytla.

Pokyny

100 XP
  • Vytvoř dotaz query, který najde 10 nejčastějších 5-tic v datasetu.