Aan de slagBegin gratis

Kolommen bewerken

De Federal Aviation Administration (FAA) beschouwt een vlucht als "vertraagd" wanneer deze 15 minuten of meer na de geplande aankomsttijd arriveert.

De volgende stap in het voorbereiden van de vluchtgegevens heeft twee onderdelen:

  1. zet de afstandseenheden om door de kolom mile te vervangen door een kolom km; en
  2. maak een Booleaanse kolom die aangeeft of een vlucht vertraagd was of niet.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Bekijk cursus

Oefeninstructies

  • Importeer een functie waarmee je een getal kunt afronden op een specifiek aantal decimalen.
  • Leid een nieuwe kolom km af van de kolom mile, afgerond op nul decimalen. Eén mijl is 1,60934 km.
  • Verwijder de kolom mile.
  • Maak een kolom label met waarde 1 als de vertraging 15 minuten of meer was, en anders 0. Denk goed na over de logische voorwaarde.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Code bewerken en uitvoeren