LoslegenKostenlos loslegen

Laden von Flugdaten

In dieser Übung lädst du einige Flugdaten von Fluggesellschaften aus einer CSV-Datei. Um sicherzustellen, dass die Übung schnell abläuft, wurden diese Daten auf nur 50.000 Datensätze gekürzt. Einen größeren Datensatz im gleichen Format findest du hier.

Hinweise zum CSV-Format:

  • Felder werden durch ein Komma getrennt (dies ist das Standardtrennzeichen) und
  • Fehlende Daten werden durch die Zeichenfolge "NA" gekennzeichnet.

Datenwörterbuch:

  • mon - Monat (ganze Zahl zwischen 1 und 12)
  • dom - Tag des Monats (ganze Zahl zwischen 1 und 31)
  • dow - Wochentag (ganze Zahl; 1 = Montag und 7 = Sonntag)
  • carrier - Fluggesellschaft(IATA-Code)
  • flight - Flugnummer
  • org - Herkunftsflughafen(IATA-Code)
  • mile - Entfernung (Meilen)
  • depart - Abfahrtszeit (Dezimalstunde)
  • duration - erwartete Dauer (Minuten)
  • delay - Verzögerung (Minuten)

pyspark wurde für dich importiert und die Sitzung wurde initialisiert.

Hinweis: Die Daten wurden aggressiv heruntergerechnet.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Lies Daten aus einer CSV-Datei namens flights.csv. Ordne den Spalten automatisch Datentypen zu. Umgang mit fehlenden Daten.
  • Wie viele Datensätze sind in den Daten enthalten?
  • Wirf einen Blick auf die ersten fünf Rekorde.
  • Welche Datentypen sind den Spalten zugewiesen worden? Sehen diese richtig aus?

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Code bearbeiten und ausführen