Vluchtgegevens laden

In deze oefening ga je luchtvaart-vluchtgegevens laden uit een CSV-bestand. Om ervoor te zorgen dat de oefening snel draait, zijn deze gegevens teruggebracht tot slechts 50.000 records. Je kunt een grotere gegevensset in hetzelfde formaat hier downloaden.

Opmerkingen over het CSV-formaat:

velden zijn gescheiden door een komma (dit is de standaardseparator) en
ontbrekende gegevens worden aangeduid met de string 'NA'.

Gegevenswoordenboek:

mon — maand (geheel getal tussen 1 en 12)
dom — dag van de maand (geheel getal tussen 1 en 31)
dow — dag van de week (geheel getal; 1 = maandag en 7 = zondag)
carrier — maatschappij (IATA-code)
flight — vluchtnummer
org — luchthaven van vertrek (IATA-code)
mile — afstand (mijl)
depart — vertrektijd (decimaal uur)
duration — verwachte duur (minuten)
delay — vertraging (minuten)

pyspark is al voor je geïmporteerd en de sessie is gestart.

Let op: De gegevens zijn sterk downsampled.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

Lees gegevens in uit een CSV-bestand met de naam flights.csv. Ken automatisch datatypen toe aan kolommen. Ga correct om met ontbrekende waarden.
Hoeveel records zitten er in de gegevens?
Bekijk de eerste vijf records.
Welke datatypen zijn aan de kolommen toegekend? Lijken deze te kloppen?

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Code bewerken en uitvoeren