1. Learn
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Wczytywanie danych o lotach

W tym ćwiczeniu wczytasz dane o lotach z pliku CSV. Aby ćwiczenie działało sprawnie, zbiór danych został ograniczony do 50 000 rekordów. Większy zbiór danych w tym samym formacie możesz pobrać tutaj.

Informacje o formacie CSV:

  • pola są rozdzielone przecinkiem (domyślny separator) oraz
  • brakujące dane są oznaczane ciągiem znaków 'NA'.

Słownik danych:

  • mon — miesiąc (liczba całkowita z zakresu 1–12)
  • dom — dzień miesiąca (liczba całkowita z zakresu 1–31)
  • dow — dzień tygodnia (liczba całkowita; 1 = poniedziałek, 7 = niedziela)
  • carrier — przewoźnik (kod IATA)
  • flight — numer lotu
  • org — lotnisko wylotu (kod IATA)
  • mile — odległość (w milach)
  • depart — godzina odlotu (godzina dziesiętna)
  • duration — planowany czas trwania lotu (w minutach)
  • delay — opóźnienie (w minutach)

Biblioteka pyspark została już zaimportowana, a sesja zainicjalizowana.

Uwaga: Zbiór danych został znacznie zredukowany.

Instructions

100 XP
  • Wczytaj dane z pliku CSV o nazwie flights.csv. Automatycznie przypisz typy danych do kolumn i zadbaj o obsługę brakujących wartości.
  • Ile rekordów zawiera ten zbiór danych?
  • Wyświetl pierwsze pięć rekordów.
  • Jakie typy danych zostały przypisane do kolumn? Czy wyglądają poprawnie?