Flugdaten werden geladen
In dieser Übung lädst du ein paar Flugdaten aus einer CSV-Datei. Damit alles schnell geht, haben wir die Daten auf nur 50.000 Datensätze reduziert. Hier kannst du einen größeren Datensatz im gleichen Format bekommen.
Hinweise zum CSV-Format:
- Felder werden durch ein Komma getrennt (das ist das Standardtrennzeichen) und
- Fehlende Daten werden mit „NA” angezeigt.
Datenwörterbuch:
mon— Monat (ganze Zahl zwischen 1 und 12)dom— Tag des Monats (ganze Zahl zwischen 1 und 31)dow— Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)carrier— Fluggesellschaft (IATA-Code)flightFlugnummerorg— Abflughafen (IATA-Code)mile— Entfernung (Meilen)depart— Abfahrtszeit (Stunde in Dezimalform)duration— voraussichtliche Dauer (in Minuten)delay— Verzögerung (in Minuten)
pyspark wurde für dich importiert und die Sitzung wurde gestartet.
Hinweis: Die Daten wurden stark heruntergerechnet.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Lies Daten aus einer CSV-Datei namens „
flights.csv“. Weise Spalten automatisch Datentypen zu. Fehlende Daten bearbeiten. - Wie viele Datensätze sind in den Daten?
- Schau dir mal die ersten fünf Einträge an.
- Welche Datentypen wurden den Spalten zugewiesen? Sehen die so okay aus?
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)