LoslegenKostenlos starten

Die DataFrames verknüpfen

In den nächsten beiden Kapiteln wirst du daran arbeiten, ein Modell zu erstellen, das anhand der Flugdaten, mit denen wir gearbeitet haben, vorhersagt, ob ein Flug verspätet sein wird oder nicht. Dieses Modell wird auch Informationen über das Flugzeug enthalten, das die Route geflogen ist. Der erste Schritt besteht also darin, die beiden Tabellen zu verknüpfen: flights und planes!

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Benenne zunächst die Spalte year von planes in plane_year um, um doppelte Spaltennamen zu vermeiden.
  • Erstelle einen neuen DataFrame mit dem Namen model_data, indem du die Tabelle flights mit planes verknüpfst und die Spalte tailnum als Schlüssel verwendest.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Code bearbeiten und ausführen