Die DataFrames verknüpfen
In den nächsten beiden Kapiteln wirst du daran arbeiten, ein Modell zu erstellen, das anhand der Flugdaten, mit denen wir gearbeitet haben, vorhersagt, ob ein Flug verspätet sein wird oder nicht. Dieses Modell wird auch Informationen über das Flugzeug enthalten, das die Route geflogen ist. Der erste Schritt besteht also darin, die beiden Tabellen zu verknüpfen: flights
und planes
!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Benenne zunächst die Spalte
year
vonplanes
inplane_year
um, um doppelte Spaltennamen zu vermeiden. - Erstelle einen neuen DataFrame mit dem Namen
model_data
, indem du die Tabelleflights
mitplanes
verknüpfst und die Spaltetailnum
als Schlüssel verwendest.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")