IniziaInizia gratis

Caricare i dati dei voli

In questo esercizio caricherai alcuni dati sui voli aerei da un file CSV. Per garantire che l'esercizio sia veloce, questi dati sono stati ridotti a soli 50.000 record. Puoi scaricare un insieme di dati più grande nello stesso formato qui.

Note sul formato CSV:

  • i campi sono separati da una virgola (è il separatore predefinito) e
  • i dati mancanti sono indicati dalla stringa 'NA'.

Dizionario dei dati:

  • mon — mese (intero tra 1 e 12)
  • dom — giorno del mese (intero tra 1 e 31)
  • dow — giorno della settimana (intero; 1 = lunedì e 7 = domenica)
  • carrier — compagnia aerea (codice IATA)
  • flight — numero del volo
  • org — aeroporto di origine (codice IATA)
  • mile — distanza (miglia)
  • depart — orario di partenza (ora decimale)
  • duration — durata prevista (minuti)
  • delay — ritardo (minuti)

pyspark è già stato importato per te e la sessione è stata inizializzata.

Nota: I dati sono stati pesantemente sottocampionati.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Leggi i dati da un file CSV chiamato flights.csv. Assegna automaticamente i tipi di dato alle colonne. Gestisci i dati mancanti.
  • Quanti record ci sono nei dati?
  • Dai un'occhiata ai primi cinque record.
  • Quali tipi di dato sono stati assegnati alle colonne? Sembrano corretti?

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Modifica ed esegui il codice