1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

Cvičení

Načítání dat o letech

V tomto cvičení načteš data o leteckých letech ze souboru CSV. Aby cvičení proběhlo rychle, jsou data ořezána na pouhých 50 000 záznamů. Větší datovou sadu ve stejném formátu najdeš zde.

Poznámky k formátu CSV:

  • pole jsou oddělena čárkou (výchozí oddělovač) a
  • chybějící data jsou označena řetězcem 'NA'.

Slovník dat:

  • mon — měsíc (celé číslo od 1 do 12)
  • dom — den v měsíci (celé číslo od 1 do 31)
  • dow — den v týdnu (celé číslo; 1 = pondělí, 7 = neděle)
  • carrier — dopravce (kód IATA)
  • flight — číslo letu
  • org — letiště odletu (kód IATA)
  • mile — vzdálenost (míle)
  • depart — čas odletu (desetinná hodina)
  • duration — předpokládaná délka letu (minuty)
  • delay — zpoždění (minuty)

pyspark je již naimportován a relace byla inicializována.

Poznámka: Data byla výrazně podvzorkována.

Pokyny

100 XP
  • Načti data ze souboru CSV s názvem flights.csv. Datové typy sloupců přiřaď automaticky. Ošetři chybějící hodnoty.
  • Kolik záznamů data obsahují?
  • Prohlédni si prvních pět záznamů.
  • Jaké datové typy byly sloupcům přiřazeny? Vypadají správně?