Spalten bearbeiten
Die US-Luftfahrtbehörde FAA sagt, ein Flug ist „verspätet“, wenn er 15 Minuten oder mehr nach der geplanten Zeit ankommt.
Der nächste Schritt bei der Vorbereitung der Flugdaten besteht aus zwei Teilen:
- die Längeneinheiten umrechnen, indem du die Spalte „
mile
“ durch eine Spalte „km
“ ersetzt; und - Erstell eine Spalte, die angibt, ob ein Flug Verspätung hatte oder nicht.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere eine Funktion, mit der du eine Zahl auf eine bestimmte Anzahl von Dezimalstellen runden kannst.
- Leite eine neue Spalte „
km
“ von der Spalte „mile
“ ab und runde auf null Dezimalstellen. Eine Meile ist 1,60934 km. - Lösch die Spalte „
mile
“. - Mach eine Spalte „
label
” (Verzögerung) mit dem Wert 1, wenn die Verzögerung 15 Minuten oder mehr war, und 0, wenn nicht. Überleg dir genau, was logisch ist.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)