1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Szybki potok danych

Zanim przejdziesz do przetwarzania bardziej złożonych danych, twój menedżer chciałby zobaczyć prosty przykład potoku danych obejmujący podstawowe kroki. W tym ćwiczeniu wczytasz plik z danymi, przefiltruj kilka wierszy, dodaj kolumnę z identyfikatorem, a następnie zapisz wynik jako dane JSON.

Kontekst spark jest już zdefiniowany, a biblioteka pyspark.sql.functions jest zaimportowana z aliasem F, zgodnie z przyjętą konwencją.

Instrukcje

100 XP
  • Wczytaj plik 2015-departures.csv.gz do DataFrame. Nagłówek jest już zdefiniowany.
  • Przefiltruj DataFrame tak, aby zawierał tylko loty trwające ponad 0 minut. Użyj indeksu kolumny, a nie jej nazwy (pamiętaj, że możesz użyć .printSchema(), aby sprawdzić nazwy i kolejność kolumn).
  • Dodaj kolumnę z identyfikatorem.
  • Zapisz wynik jako dokument JSON o nazwie output.json.