Rychlý pipeline

Než se pustíš do zpracování složitějších dat, tvůj manažer by rád viděl jednoduchý příklad pipeline zahrnující základní kroky. V tomto cvičení načteš datový soubor, vyfiltrujemeš několik řádků, přidáš sloupec s ID a výsledek zapíšeš jako JSON.

Kontext spark je již definován a knihovna pyspark.sql.functions je podle zvyklostí dostupná pod aliasem F.

Importuj soubor 2015-departures.csv.gz do DataFrame. Hlavička je již definována.
Vyfiltruj DataFrame tak, aby obsahoval pouze lety s dobou trvání delší než 0 minut. Použij index sloupce, nikoli jeho název (pro zobrazení názvů a pořadí sloupců použij .printSchema()).
Přidej sloupec s ID.
Zapiš soubor jako JSON dokument s názvem output.json.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení