Flugdaten werden geladen
In dieser Übung lädst du ein paar Flugdaten aus einer CSV-Datei. Damit alles schnell geht, haben wir die Daten auf nur 50.000 Datensätze reduziert. Hier kannst du einen größeren Datensatz im gleichen Format bekommen.
Hinweise zum CSV-Format:
- Felder werden durch ein Komma getrennt (das ist das Standardtrennzeichen) und
- Fehlende Daten werden mit „NA” angezeigt.
Datenwörterbuch:
mon
— Monat (ganze Zahl zwischen 1 und 12)dom
— Tag des Monats (ganze Zahl zwischen 1 und 31)dow
— Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)carrier
— Fluggesellschaft (IATA-Code)flight
Flugnummerorg
— Abflughafen (IATA-Code)mile
— Entfernung (Meilen)depart
— Abfahrtszeit (Stunde in Dezimalform)duration
— voraussichtliche Dauer (in Minuten)delay
— Verzögerung (in Minuten)
pyspark
wurde für dich importiert und die Sitzung wurde gestartet.
Hinweis: Die Daten wurden stark heruntergerechnet.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Lies Daten aus einer CSV-Datei namens „
flights.csv
“. Weise Spalten automatisch Datentypen zu. Fehlende Daten bearbeiten. - Wie viele Datensätze sind in den Daten?
- Schau dir mal die ersten fünf Einträge an.
- Welche Datentypen wurden den Spalten zugewiesen? Sehen die so okay aus?
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)