Aan de slagGa gratis aan de slag

Een Boolean maken

Stel dat je een ja/nee-vraag modelleert: is de vlucht te laat? Je gegevens bevatten echter de aankomstvertraging in minuten voor elke vlucht. Daarom moet je een booleaanse kolom maken die aangeeft of de vlucht te laat was of niet!

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Gebruik de methode .withColumn() om de kolom is_late te maken. Deze kolom is gelijk aan model_data.arr_delay > 0.
  • Converteer deze kolom naar een geheelgetalkolom zodat je hem in je model kunt gebruiken en noem hem label (dit is de standaardnaam voor de responsvariabele in Spark's Machine Learning-routines).
  • Filter ontbrekende waarden eruit (dit is al voor je gedaan).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create is_late
model_data = model_data.withColumn("is_late", ____)

# Convert to an integer
model_data = model_data.withColumn("label", ____)

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")
Code bewerken en uitvoeren