Verknüpfen von II
In PySpark werden Verknüpfungen mit der DataFrame-Methode .join() durchgeführt. Diese Methode benötigt drei Argumente. Das erste ist der zweite DataFrame, den du mit dem ersten verknüpfen willst. Das zweite Argument, on, ist der Name der Schlüsselspalte(n) als String. Die Namen der Schlüsselspalte(n) muss/müssen in jeder Tabelle gleich sein. Das dritte Argument, how, gibt die Art der Verknüpfung an, die durchgeführt werden soll. In diesem Kurs werden wir immer den Wert how="leftouter" verwenden.
Der Datensatz flights und ein neuer Datensatz namens airports befinden sich bereits in deinem Arbeitsbereich.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Untersuche den DataFrame
airports, indem du.show()aufrufst. Beachte, mit welcher Schlüsselspalte duairportsmit der Tabelleflightsverknüpfen kannst.Benenne die Spalte
faainairportsindestum, indem du das Ergebnis vonairports.withColumnRenamed("faa", "dest")anairportsneu zuordnest.Verknüpfe den DataFrame
flightsmit dem DataFrameairportsin der Spaltedest, indem du die Methode.join()aufflightsaufrufst. Speichere das Ergebnis alsflights_with_airports.Das erste Argument muss der andere DataFrame sein,
airports.Das Argument
onsollte die Schlüsselspalte sein.Das Argument
howsollte"leftouter"sein.
Rufe
.show()fürflights_with_airportsauf, um die Daten erneut zu prüfen. Beachte die neuen Informationen, die hinzugefügt wurden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)