1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Zapisywanie ramki danych w formacie Parquet

Praca ze Sparkiem często zaczyna się od plików CSV, JSON lub innych źródeł danych. Daje to dużą elastyczność przy wczytywaniu różnych typów danych, jednak nie jest to optymalny format dla Sparka. Format Parquet to kolumnowy magazyn danych, który umożliwia Sparkowi korzystanie z mechanizmu predicate pushdown. Oznacza to, że Spark przetwarza tylko te dane, które są niezbędne do wykonania zdefiniowanych operacji – zamiast wczytywać cały zbiór. Dzięki temu Spark ma większą elastyczność w dostępie do danych, co często znacząco poprawia wydajność przy dużych zbiorach.

W tym ćwiczeniu przećwiczysz tworzenie nowego pliku Parquet, a następnie przetworzysz dane z tego pliku.

Obiekt spark oraz ramki danych df1 i df2 zostały już dla ciebie przygotowane.

Instrukcje

100 XP
  • Sprawdź liczbę wierszy w df1 i df2.
  • Połącz df1 i df2 w nową ramkę danych o nazwie df3, używając metody union.
  • Zapisz df3 do pliku parquet o nazwie AA_DFW_ALL.parquet.
  • Wczytaj plik AA_DFW_ALL.parquet i wyświetl liczbę wierszy.