1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Čtení query plánů 2 – procvičování

K dispozici jsou tři dataframy: part2_df, part3_df a part4_df. Na otázky v tomto cvičení můžeš odpovědět prozkoumáním výstupu explain() každého dataframu.

Všimni si, že Spark označuje každý název sloupce deskriptorem oddělený symbolem #. Například word#0, id#1L, part#2 a title#3. Pro účely tohoto cvičení tyto deskriptory ignoruj.

Pokyny 1/4

undefined XP
    1
    2
    3
    4

Otázka

  • Z jakého souboru byl načten part2_df? Nezajímá nás celá cesta – chceme jen název souboru včetně přípony.

Možné odpovědi