1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Rychlý pipeline

Než se pustíš do zpracování složitějších dat, tvůj manažer by rád viděl jednoduchý příklad pipeline zahrnující základní kroky. V tomto cvičení načteš datový soubor, vyfiltrujemeš několik řádků, přidáš sloupec s ID a výsledek zapíšeš jako JSON.

Kontext spark je již definován a knihovna pyspark.sql.functions je podle zvyklostí dostupná pod aliasem F.

Pokyny

100 XP
  • Importuj soubor 2015-departures.csv.gz do DataFrame. Hlavička je již definována.
  • Vyfiltruj DataFrame tak, aby obsahoval pouze lety s dobou trvání delší než 0 minut. Použij index sloupce, nikoli jeho název (pro zobrazení názvů a pořadí sloupců použij .printSchema()).
  • Přidej sloupec s ID.
  • Zapiš soubor jako JSON dokument s názvem output.json.