Caricare i dati dei voli
In questo esercizio caricherai alcuni dati sui voli aerei da un file CSV. Per garantire che l'esercizio sia veloce, questi dati sono stati ridotti a soli 50.000 record. Puoi scaricare un insieme di dati più grande nello stesso formato qui.
Note sul formato CSV:
- i campi sono separati da una virgola (è il separatore predefinito) e
- i dati mancanti sono indicati dalla stringa 'NA'.
Dizionario dei dati:
mon— mese (intero tra 1 e 12)dom— giorno del mese (intero tra 1 e 31)dow— giorno della settimana (intero; 1 = lunedì e 7 = domenica)carrier— compagnia aerea (codice IATA)flight— numero del voloorg— aeroporto di origine (codice IATA)mile— distanza (miglia)depart— orario di partenza (ora decimale)duration— durata prevista (minuti)delay— ritardo (minuti)
pyspark è già stato importato per te e la sessione è stata inizializzata.
Nota: I dati sono stati pesantemente sottocampionati.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Leggi i dati da un file CSV chiamato
flights.csv. Assegna automaticamente i tipi di dato alle colonne. Gestisci i dati mancanti. - Quanti record ci sono nei dati?
- Dai un'occhiata ai primi cinque record.
- Quali tipi di dato sono stati assegnati alle colonne? Sembrano corretti?
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)