Caricare i dati dei voli

In questo esercizio caricherai alcuni dati sui voli aerei da un file CSV. Per garantire che l'esercizio sia veloce, questi dati sono stati ridotti a soli 50.000 record. Puoi scaricare un insieme di dati più grande nello stesso formato qui.

Note sul formato CSV:

i campi sono separati da una virgola (è il separatore predefinito) e
i dati mancanti sono indicati dalla stringa 'NA'.

Dizionario dei dati:

mon — mese (intero tra 1 e 12)
dom — giorno del mese (intero tra 1 e 31)
dow — giorno della settimana (intero; 1 = lunedì e 7 = domenica)
carrier — compagnia aerea (codice IATA)
flight — numero del volo
org — aeroporto di origine (codice IATA)
mile — distanza (miglia)
depart — orario di partenza (ora decimale)
duration — durata prevista (minuti)
delay — ritardo (minuti)

pyspark è già stato importato per te e la sessione è stata inizializzata.

Nota: I dati sono stati pesantemente sottocampionati.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

Leggi i dati da un file CSV chiamato flights.csv. Assegna automaticamente i tipi di dato alle colonne. Gestisci i dati mancanti.
Quanti record ci sono nei dati?
Dai un'occhiata ai primi cinque record.
Quali tipi di dato sono stati assegnati alle colonne? Sembrano corretti?

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Modifica ed esegui il codice