1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Ćwiczenie z buforowaniem: część 1

W kolejnych ćwiczeniach poeksperymentujesz z różnymi sposobami buforowania dwóch DataFrame'ów.

DataFrame df1 jest wczytywany z pliku CSV, a następnie poddawany kilku krokom przetwarzania. Ponieważ df1 będzie używany więcej niż raz, jest dobrym kandydatem do buforowania.

Drugi DataFrame – df2 – powstaje przez wykonanie dodatkowych, kosztownych obliczeniowo operacji na df1. On również nadaje się do buforowania.

Ponieważ df2 zależy od df1, pojawia się pytanie: czy lepiej buforować df1, czy df2?

W tym ćwiczeniu spróbujemy zbuforować df1. Zwróć uwagę na czas wykonania poszczególnych akcji – porównamy je w następnym ćwiczeniu.

Instrukcje

100 XP
  • Zbuforuj tylko df1.
  • Uruchom pierwszą akcję na df1 i powtórz ją, a następnie uruchom akcję na df2 i również ją powtórz. Ten krok został już za ciebie przygotowany.
  • Sprawdź, czy df1 jest zbuforowany.