1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Zapisywanie DataFrame w pamięci podręcznej

Masz do wykonania zadanie, które wymaga przeprowadzenia kilku operacji analitycznych na DataFrame. Wiesz już, że zapisywanie w pamięci podręcznej (ang. caching) może poprawić wydajność przy wielokrotnym korzystaniu z tego samego DataFrame – i chcesz to teraz zastosować.

Będziesz pracować z nowym zbiorem danych zawierającym informacje o odlotach samolotów. Dane mogą zawierać duplikaty, które trzeba będzie usunąć.

DataFrame departures_df jest już zdefiniowany, ale nie wykonano jeszcze żadnych operacji.

Instrukcje

100 XP
  • Zapisz w pamięci podręcznej unikalne wiersze z DataFrame departures_df.
  • Wykonaj zapytanie zliczające wiersze w departures_df i zwróć uwagę na czas trwania operacji.
  • Policz wiersze ponownie i sprawdź, jak zmienił się czas wykonania dla DataFrame zapisanego w pamięci podręcznej.