1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Tworzenie kolumny typu Boolean

Modelujesz odpowiedź na pytanie „tak" lub „nie": czy lot się opóźnił? Twoje dane zawierają jednak opóźnienie przylotu w minutach dla każdego lotu. Musisz więc utworzyć kolumnę typu boolean, która wskaże, czy dany lot był opóźniony, czy nie.

Instrukcje

100 XP
  • Użyj metody .withColumn(), aby utworzyć kolumnę is_late. Kolumna ta powinna być równa wyrażeniu model_data.arr_delay > 0.
  • Przekonwertuj tę kolumnę na kolumnę liczb całkowitych, aby móc jej użyć w modelu, i nadaj jej nazwę label (to domyślna nazwa zmiennej odpowiedzi w procedurach uczenia maszynowego Sparka).
  • Odfiltruj brakujące wartości (ten krok został już za ciebie wykonany).