Flugdaten werden geladen

In dieser Übung lädst du ein paar Flugdaten aus einer CSV-Datei. Damit alles schnell geht, haben wir die Daten auf nur 50.000 Datensätze reduziert. Hier kannst du einen größeren Datensatz im gleichen Format bekommen.

Hinweise zum CSV-Format:

Felder werden durch ein Komma getrennt (das ist das Standardtrennzeichen) und
Fehlende Daten werden mit „NA” angezeigt.

Datenwörterbuch:

mon — Monat (ganze Zahl zwischen 1 und 12)
dom — Tag des Monats (ganze Zahl zwischen 1 und 31)
dow — Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)
carrier — Fluggesellschaft (IATA-Code)
flight Flugnummer
org — Abflughafen (IATA-Code)
mile — Entfernung (Meilen)
depart — Abfahrtszeit (Stunde in Dezimalform)
duration — voraussichtliche Dauer (in Minuten)
delay — Verzögerung (in Minuten)

pyspark wurde für dich importiert und die Sitzung wurde gestartet.

Hinweis: Die Daten wurden stark heruntergerechnet.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Lies Daten aus einer CSV-Datei namens „ flights.csv “. Weise Spalten automatisch Datentypen zu. Fehlende Daten bearbeiten.
Wie viele Datensätze sind in den Daten?
Schau dir mal die ersten fünf Einträge an.
Welche Datentypen wurden den Spalten zugewiesen? Sehen die so okay aus?

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Code bearbeiten und ausführen