Szybki potok danych

Zanim przejdziesz do przetwarzania bardziej złożonych danych, twój menedżer chciałby zobaczyć prosty przykład potoku danych obejmujący podstawowe kroki. W tym ćwiczeniu wczytasz plik z danymi, przefiltruj kilka wierszy, dodaj kolumnę z identyfikatorem, a następnie zapisz wynik jako dane JSON.

Kontekst spark jest już zdefiniowany, a biblioteka pyspark.sql.functions jest zaimportowana z aliasem F, zgodnie z przyjętą konwencją.

Wczytaj plik 2015-departures.csv.gz do DataFrame. Nagłówek jest już zdefiniowany.
Przefiltruj DataFrame tak, aby zawierał tylko loty trwające ponad 0 minut. Użyj indeksu kolumny, a nie jej nazwy (pamiętaj, że możesz użyć .printSchema(), aby sprawdzić nazwy i kolejność kolumn).
Dodaj kolumnę z identyfikatorem.
Zapisz wynik jako dokument JSON o nazwie output.json.

ćwiczenie

Szybki potok danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie