IniziaInizia gratis

Manipolazione delle colonne

La Federal Aviation Administration (FAA) considera un volo "in ritardo" quando arriva 15 minuti o più dopo l'orario previsto.

Il prossimo passo nella preparazione dei dati dei voli ha due parti:

  1. convertire l'unità di distanza, sostituendo la colonna mile con una colonna km; e
  2. creare una colonna booleana che indichi se un volo è stato in ritardo oppure no.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Importa una funzione che ti permetta di arrotondare un numero a un preciso numero di cifre decimali.
  • Ricava una nuova colonna km dalla colonna mile, arrotondando a zero cifre decimali. Una miglio corrisponde a 1,60934 km.
  • Rimuovi la colonna mile.
  • Crea una colonna label con valore 1 se il ritardo è stato di 15 minuti o più e 0 altrimenti. Rifletti con attenzione sulla condizione logica.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Modifica ed esegui il codice