Einen booleschen Wert erstellen
Bedenke, dass du eine Ja- oder Nein-Frage formulierst: Hat der Flug Verspätung? Deine Daten enthalten jedoch für jeden Flug die Ankunftsverspätung in Minuten. Du musst also eine Spalte mit booleschen Werten erstellen, die angibt, ob der Flug verspätet war oder nicht!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Verwende die Methode
.withColumn()
, um die Spalteis_late
zu erstellen. Diese Spalte ist gleichmodel_data.arr_delay > 0
. - Wandle diese Spalte in eine Ganzzahlspalte um, damit du sie in deinem Modell verwenden kannst, und nenne sie
label
(dies ist der Standardname für die Antwortvariable in den Machine-Learning-Routinen von Spark). - Filtere die fehlenden Werte heraus (dies wurde bereits für dich gemacht).
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")