Laden von Flugdaten
In dieser Übung lädst du einige Flugdaten von Fluggesellschaften aus einer CSV-Datei. Um sicherzustellen, dass die Übung schnell abläuft, wurden diese Daten auf nur 50.000 Datensätze gekürzt. Einen größeren Datensatz im gleichen Format findest du hier.
Hinweise zum CSV-Format:
- Felder werden durch ein Komma getrennt (dies ist das Standardtrennzeichen) und
- Fehlende Daten werden durch die Zeichenfolge "NA" gekennzeichnet.
Datenwörterbuch:
mon- Monat (ganze Zahl zwischen 1 und 12)dom- Tag des Monats (ganze Zahl zwischen 1 und 31)dow- Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)carrier- Fluggesellschaft(IATA-Code)flight- Flugnummerorg- Herkunftsflughafen(IATA-Code)mile- Entfernung (Meilen)depart- Abfahrtszeit (Dezimalstunde)duration- erwartete Dauer (Minuten)delay- Verzögerung (Minuten)
pyspark wurde für dich importiert und die Sitzung wurde initialisiert.
Hinweis: Die Daten wurden aggressiv heruntergerechnet.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Lies Daten aus einer CSV-Datei namens
flights.csv. Ordne den Spalten automatisch Datentypen zu. Umgang mit fehlenden Daten. - Wie viele Datensätze sind in den Daten enthalten?
- Wirf einen Blick auf die ersten fünf Rekorde.
- Welche Datentypen sind den Spalten zugewiesen worden? Sehen diese richtig aus?
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)