LoslegenKostenlos loslegen

Flugdaten werden geladen

In dieser Übung lädst du ein paar Flugdaten aus einer CSV-Datei. Damit alles schnell geht, haben wir die Daten auf nur 50.000 Datensätze reduziert. Hier kannst du einen größeren Datensatz im gleichen Format bekommen.

Hinweise zum CSV-Format:

  • Felder werden durch ein Komma getrennt (das ist das Standardtrennzeichen) und
  • Fehlende Daten werden mit „NA” angezeigt.

Datenwörterbuch:

  • mon — Monat (ganze Zahl zwischen 1 und 12)
  • dom — Tag des Monats (ganze Zahl zwischen 1 und 31)
  • dow — Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)
  • carrier — Fluggesellschaft (IATA-Code)
  • flight Flugnummer
  • org — Abflughafen (IATA-Code)
  • mile — Entfernung (Meilen)
  • depart — Abfahrtszeit (Stunde in Dezimalform)
  • duration — voraussichtliche Dauer (in Minuten)
  • delay — Verzögerung (in Minuten)

pyspark wurde für dich importiert und die Sitzung wurde gestartet.

Hinweis: Die Daten wurden stark heruntergerechnet.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Lies Daten aus einer CSV-Datei namens „ flights.csv “. Weise Spalten automatisch Datentypen zu. Fehlende Daten bearbeiten.
  • Wie viele Datensätze sind in den Daten?
  • Schau dir mal die ersten fünf Einträge an.
  • Welche Datentypen wurden den Spalten zugewiesen? Sehen die so okay aus?

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Code bearbeiten und ausführen