Kolommen bewerken
De Federal Aviation Administration (FAA) beschouwt een vlucht als "vertraagd" wanneer deze 15 minuten of meer na de geplande aankomsttijd arriveert.
De volgende stap in het voorbereiden van de vluchtgegevens heeft twee onderdelen:
- zet de afstandseenheden om door de kolom
milete vervangen door een kolomkm; en - maak een Booleaanse kolom die aangeeft of een vlucht vertraagd was of niet.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Importeer een functie waarmee je een getal kunt afronden op een specifiek aantal decimalen.
- Leid een nieuwe kolom
kmaf van de kolommile, afgerond op nul decimalen. Eén mijl is 1,60934 km. - Verwijder de kolom
mile. - Maak een kolom
labelmet waarde 1 als de vertraging 15 minuten of meer was, en anders 0. Denk goed na over de logische voorwaarde.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)