Vluchtgegevens laden
In deze oefening ga je luchtvaart-vluchtgegevens laden uit een CSV-bestand. Om ervoor te zorgen dat de oefening snel draait, zijn deze gegevens teruggebracht tot slechts 50.000 records. Je kunt een grotere gegevensset in hetzelfde formaat hier downloaden.
Opmerkingen over het CSV-formaat:
- velden zijn gescheiden door een komma (dit is de standaardseparator) en
- ontbrekende gegevens worden aangeduid met de string 'NA'.
Gegevenswoordenboek:
mon— maand (geheel getal tussen 1 en 12)dom— dag van de maand (geheel getal tussen 1 en 31)dow— dag van de week (geheel getal; 1 = maandag en 7 = zondag)carrier— maatschappij (IATA-code)flight— vluchtnummerorg— luchthaven van vertrek (IATA-code)mile— afstand (mijl)depart— vertrektijd (decimaal uur)duration— verwachte duur (minuten)delay— vertraging (minuten)
pyspark is al voor je geïmporteerd en de sessie is gestart.
Let op: De gegevens zijn sterk downsampled.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Lees gegevens in uit een CSV-bestand met de naam
flights.csv. Ken automatisch datatypen toe aan kolommen. Ga correct om met ontbrekende waarden. - Hoeveel records zitten er in de gegevens?
- Bekijk de eerste vijf records.
- Welke datatypen zijn aan de kolommen toegekend? Lijken deze te kloppen?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)