Aan de slagGa gratis aan de slag

Vluchtgegevens laden

In deze oefening ga je luchtvaart-vluchtgegevens laden uit een CSV-bestand. Om ervoor te zorgen dat de oefening snel draait, zijn deze gegevens teruggebracht tot slechts 50.000 records. Je kunt een grotere gegevensset in hetzelfde formaat hier downloaden.

Opmerkingen over het CSV-formaat:

  • velden zijn gescheiden door een komma (dit is de standaardseparator) en
  • ontbrekende gegevens worden aangeduid met de string 'NA'.

Gegevenswoordenboek:

  • mon — maand (geheel getal tussen 1 en 12)
  • dom — dag van de maand (geheel getal tussen 1 en 31)
  • dow — dag van de week (geheel getal; 1 = maandag en 7 = zondag)
  • carrier — maatschappij (IATA-code)
  • flight — vluchtnummer
  • org — luchthaven van vertrek (IATA-code)
  • mile — afstand (mijl)
  • depart — vertrektijd (decimaal uur)
  • duration — verwachte duur (minuten)
  • delay — vertraging (minuten)

pyspark is al voor je geïmporteerd en de sessie is gestart.

Let op: De gegevens zijn sterk downsampled.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Lees gegevens in uit een CSV-bestand met de naam flights.csv. Ken automatisch datatypen toe aan kolommen. Ga correct om met ontbrekende waarden.
  • Hoeveel records zitten er in de gegevens?
  • Bekijk de eerste vijf records.
  • Welke datatypen zijn aan de kolommen toegekend? Lijken deze te kloppen?

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Code bewerken en uitvoeren