Säulenmanipulation
Die Federal Aviation Administration (FAA) betrachtet einen Flug als "verspätet", wenn er 15 Minuten oder mehr nach der geplanten Zeit ankommt.
Der nächste Schritt der Vorbereitung der Flugdaten besteht aus zwei Teilen:
- die Entfernungseinheiten umzuwandeln, indem du die Spalte
mile
durch eine Spaltekm
ersetzst; und - eine boolesche Spalte erstellen, die angibt, ob ein Flug verspätet war oder nicht.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere eine Funktion, mit der du eine Zahl auf eine bestimmte Anzahl von Nachkommastellen runden kannst.
- Leite aus der Spalte
mile
eine neue Spaltekm
ab und runde dabei auf null Nachkommastellen. Eine Meile ist 1,60934 km. - Entferne die
mile
Säule. - Erstelle eine Spalte
label
mit dem Wert 1, wenn die Verspätung 15 Minuten oder mehr betrug, und 0, wenn nicht. Denke sorgfältig über die logische Bedingung nach.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)