Aan de slagGa gratis aan de slag

Kolommen bewerken

De Federal Aviation Administration (FAA) beschouwt een vlucht als "vertraagd" wanneer deze 15 minuten of meer na de geplande aankomsttijd arriveert.

De volgende stap in het voorbereiden van de vluchtgegevens heeft twee onderdelen:

  1. zet de afstandseenheden om door de kolom mile te vervangen door een kolom km; en
  2. maak een Booleaanse kolom die aangeeft of een vlucht vertraagd was of niet.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer een functie waarmee je een getal kunt afronden op een specifiek aantal decimalen.
  • Leid een nieuwe kolom km af van de kolom mile, afgerond op nul decimalen. Eén mijl is 1,60934 km.
  • Verwijder de kolom mile.
  • Maak een kolom label met waarde 1 als de vertraging 15 minuten of meer was, en anders 0. Denk goed na over de logische voorwaarde.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Code bewerken en uitvoeren