Creare un booleano
Immagina di dover modellare una domanda sì/no: il volo è in ritardo? Tuttavia, nei dati hai il ritardo all’arrivo in minuti per ogni volo. Dovrai quindi creare una colonna booleana che indichi se il volo è in ritardo oppure no!
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Usa il metodo
.withColumn()per creare la colonnais_late. Questa colonna è uguale amodel_data.arr_delay > 0. - Convertila in una colonna di tipo intero così da poterla usare nel modello e chiamala
label(è il nome predefinito della variabile di risposta nelle routine di Machine Learning di Spark). - Filtra i valori mancanti (questo passaggio è già stato fatto per te).
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")