1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Łączenie DataFrame'ów

W kolejnych dwóch rozdziałach zbudujesz model, który przewiduje, czy lot zostanie opóźniony – na podstawie danych o lotach, z którymi pracowałeś/-aś do tej pory. Model uwzględni również informacje o samolocie obsługującym daną trasę, dlatego pierwszym krokiem jest połączenie dwóch tabel: flights i planes!

Instrukcje

100 XP
  • Najpierw zmień nazwę kolumny year w tabeli planes na plane_year, aby uniknąć duplikowania nazw kolumn.
  • Utwórz nowy DataFrame o nazwie model_data, łącząc tabelę flights z tabelą planes przy użyciu kolumny tailnum jako klucza.