IniziaInizia gratis

Creare un booleano

Immagina di dover modellare una domanda sì/no: il volo è in ritardo? Tuttavia, nei dati hai il ritardo all’arrivo in minuti per ogni volo. Dovrai quindi creare una colonna booleana che indichi se il volo è in ritardo oppure no!

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il metodo .withColumn() per creare la colonna is_late. Questa colonna è uguale a model_data.arr_delay > 0.
  • Convertila in una colonna di tipo intero così da poterla usare nel modello e chiamala label (è il nome predefinito della variabile di risposta nelle routine di Machine Learning di Spark).
  • Filtra i valori mancanti (questo passaggio è già stato fatto per te).

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create is_late
model_data = model_data.withColumn("is_late", ____)

# Convert to an integer
model_data = model_data.withColumn("label", ____)

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")
Modifica ed esegui il codice