Manipolazione delle colonne
La Federal Aviation Administration (FAA) considera un volo "in ritardo" quando arriva 15 minuti o più dopo l'orario previsto.
Il prossimo passo nella preparazione dei dati dei voli ha due parti:
- convertire l'unità di distanza, sostituendo la colonna
milecon una colonnakm; e - creare una colonna booleana che indichi se un volo è stato in ritardo oppure no.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Importa una funzione che ti permetta di arrotondare un numero a un preciso numero di cifre decimali.
- Ricava una nuova colonna
kmdalla colonnamile, arrotondando a zero cifre decimali. Una miglio corrisponde a 1,60934 km. - Rimuovi la colonna
mile. - Crea una colonna
labelcon valore 1 se il ritardo è stato di 15 minuti o più e 0 altrimenti. Rifletti con attenzione sulla condizione logica.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)