1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Porównanie złączeń broadcast i zwykłych

Masz już dwa rodzaje złączeń: zwykłe i z rozgłaszaniem (broadcast). Teraz twój menedżer chce wiedzieć, jaką poprawę wydajności dają optymalizacje Sparka. Jeśli wyniki okażą się obiecujące, dostaniesz więcej możliwości dostosowania konfiguracji Sparka.

Do dyspozycji masz DataFrames normal_df i broadcast_df.

Instrukcje

100 XP
  • Wywołaj .count() na zwykłym DataFrame.
  • Wywołaj .count() na rozgłoszonym DataFrame.
  • Wypisz liczbę wierszy i czas wykonania obu DataFrame, zwracając uwagę na różnice.