Laden von Flugdaten

In dieser Übung lädst du einige Flugdaten von Fluggesellschaften aus einer CSV-Datei. Um sicherzustellen, dass die Übung schnell abläuft, wurden diese Daten auf nur 50.000 Datensätze gekürzt. Einen größeren Datensatz im gleichen Format findest du hier.

Hinweise zum CSV-Format:

Felder werden durch ein Komma getrennt (dies ist das Standardtrennzeichen) und
Fehlende Daten werden durch die Zeichenfolge "NA" gekennzeichnet.

Datenwörterbuch:

mon - Monat (ganze Zahl zwischen 1 und 12)
dom - Tag des Monats (ganze Zahl zwischen 1 und 31)
dow - Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)
carrier - Fluggesellschaft(IATA-Code)
flight - Flugnummer
org - Herkunftsflughafen(IATA-Code)
mile - Entfernung (Meilen)
depart - Abfahrtszeit (Dezimalstunde)
duration - erwartete Dauer (Minuten)
delay - Verzögerung (Minuten)

pyspark wurde für dich importiert und die Sitzung wurde initialisiert.

Hinweis: Die Daten wurden aggressiv heruntergerechnet.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Lies Daten aus einer CSV-Datei namens flights.csv. Ordne den Spalten automatisch Datentypen zu. Umgang mit fehlenden Daten.
Wie viele Datensätze sind in den Daten enthalten?
Wirf einen Blick auf die ersten fünf Rekorde.
Welche Datentypen sind den Spalten zugewiesen worden? Sehen diese richtig aus?

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Code bearbeiten und ausführen