LoslegenKostenlos loslegen

Die DataFrames verknüpfen

In den nächsten beiden Kapiteln wirst du daran arbeiten, ein Modell zu erstellen, das anhand der Flugdaten, mit denen wir gearbeitet haben, vorhersagt, ob ein Flug verspätet sein wird oder nicht. Dieses Modell wird auch Informationen über das Flugzeug enthalten, das die Route geflogen ist. Der erste Schritt besteht also darin, die beiden Tabellen zu verknüpfen: flights und planes!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Benenne zunächst die Spalte year von planes in plane_year um, um doppelte Spaltennamen zu vermeiden.
  • Erstelle einen neuen DataFrame mit dem Namen model_data, indem du die Tabelle flights mit planes verknüpfst und die Spalte tailnum als Schlüssel verwendest.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Code bearbeiten und ausführen