Een Boolean maken
Stel dat je een ja/nee-vraag modelleert: is de vlucht te laat? Je gegevens bevatten echter de aankomstvertraging in minuten voor elke vlucht. Daarom moet je een booleaanse kolom maken die aangeeft of de vlucht te laat was of niet!
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Gebruik de methode
.withColumn()om de kolomis_latete maken. Deze kolom is gelijk aanmodel_data.arr_delay > 0. - Converteer deze kolom naar een geheelgetalkolom zodat je hem in je model kunt gebruiken en noem hem
label(dit is de standaardnaam voor de responsvariabele in Spark's Machine Learning-routines). - Filter ontbrekende waarden eruit (dit is al voor je gedaan).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")