Laden von Flugdaten
In dieser Übung lädst du einige Flugdaten von Fluggesellschaften aus einer CSV-Datei. Um sicherzustellen, dass die Übung schnell abläuft, wurden diese Daten auf nur 50.000 Datensätze gekürzt. Einen größeren Datensatz im gleichen Format findest du hier.
Hinweise zum CSV-Format:
- Felder werden durch ein Komma getrennt (dies ist das Standardtrennzeichen) und
- Fehlende Daten werden durch die Zeichenfolge "NA" gekennzeichnet.
Datenwörterbuch:
mon
- Monat (ganze Zahl zwischen 1 und 12)dom
- Tag des Monats (ganze Zahl zwischen 1 und 31)dow
- Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)carrier
- Fluggesellschaft(IATA-Code)flight
- Flugnummerorg
- Herkunftsflughafen(IATA-Code)mile
- Entfernung (Meilen)depart
- Abfahrtszeit (Dezimalstunde)duration
- erwartete Dauer (Minuten)delay
- Verzögerung (Minuten)
pyspark
wurde für dich importiert und die Sitzung wurde initialisiert.
Hinweis: Die Daten wurden aggressiv heruntergerechnet.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Lies Daten aus einer CSV-Datei namens
flights.csv
. Ordne den Spalten automatisch Datentypen zu. Umgang mit fehlenden Daten. - Wie viele Datensätze sind in den Daten enthalten?
- Wirf einen Blick auf die ersten fünf Rekorde.
- Welche Datentypen sind den Spalten zugewiesen worden? Sehen diese richtig aus?
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)