Rimozione di colonne e righe
In precedenza hai caricato i dati dei voli aerei da un file CSV. Stai per sviluppare un modello che predica se un dato volo subirà un ritardo oppure no.
In questo esercizio devi ridurre questi dati:
- rimuovendo una colonna non informativa e
- rimuovendo le righe che non riportano l'informazione sul fatto che il volo sia stato in ritardo oppure no.
I dati sono disponibili come flights.
Nota: Potrebbe esserti utile ripassare le diapositive delle lezioni nel pannello Diapositive accanto all'IPython Shell.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Rimuovi la colonna
flight. - Scopri quanti record hanno valori mancanti nella colonna
delay. - Rimuovi i record con valori mancanti nella colonna
delay. - Rimuovi i record con valori mancanti in qualsiasi colonna e ottieni il numero di righe rimanenti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())