1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Načtení dataframu z parquet souboru

V tvém pracovním prostoru je k dispozici soubor s dataframem sherlock_sentences.parquet. Každý řádek tohoto dataframu obsahuje jednu klauzuli – tedy posloupnost slov oddělenou od ostatních klauzulí interpunkcí, jako jsou tečky, uvozovky a další přirozené oddělovače vět a větných fragmentů. Tvůj úkol, pokud se ho rozhodneš přijmout, je tento soubor načíst.

Pokyny

100 XP
  • Načti soubor sherlock_sentences.parquet.
  • Filtruj záznamy s podmínkou "id > 70" a zobraz prvních 5 řádků.