Verknüpfen von II
In PySpark werden Verknüpfungen mit der DataFrame-Methode .join()
durchgeführt. Diese Methode benötigt drei Argumente. Das erste ist der zweite DataFrame, den du mit dem ersten verknüpfen willst. Das zweite Argument, on
, ist der Name der Schlüsselspalte(n) als String. Die Namen der Schlüsselspalte(n) muss/müssen in jeder Tabelle gleich sein. Das dritte Argument, how
, gibt die Art der Verknüpfung an, die durchgeführt werden soll. In diesem Kurs werden wir immer den Wert how="leftouter"
verwenden.
Der Datensatz flights
und ein neuer Datensatz namens airports
befinden sich bereits in deinem Arbeitsbereich.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Untersuche den DataFrame
airports
, indem du.show()
aufrufst. Beachte, mit welcher Schlüsselspalte duairports
mit der Tabelleflights
verknüpfen kannst.Benenne die Spalte
faa
inairports
indest
um, indem du das Ergebnis vonairports.withColumnRenamed("faa", "dest")
anairports
neu zuordnest.Verknüpfe den DataFrame
flights
mit dem DataFrameairports
in der Spaltedest
, indem du die Methode.join()
aufflights
aufrufst. Speichere das Ergebnis alsflights_with_airports
.Das erste Argument muss der andere DataFrame sein,
airports
.Das Argument
on
sollte die Schlüsselspalte sein.Das Argument
how
sollte"leftouter"
sein.
Rufe
.show()
fürflights_with_airports
auf, um die Daten erneut zu prüfen. Beachte die neuen Informationen, die hinzugefügt wurden.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)