LoslegenKostenlos loslegen

Verknüpfen von II

In PySpark werden Verknüpfungen mit der DataFrame-Methode .join() durchgeführt. Diese Methode benötigt drei Argumente. Das erste ist der zweite DataFrame, den du mit dem ersten verknüpfen willst. Das zweite Argument, on, ist der Name der Schlüsselspalte(n) als String. Die Namen der Schlüsselspalte(n) muss/müssen in jeder Tabelle gleich sein. Das dritte Argument, how, gibt die Art der Verknüpfung an, die durchgeführt werden soll. In diesem Kurs werden wir immer den Wert how="leftouter" verwenden.

Der Datensatz flights und ein neuer Datensatz namens airports befinden sich bereits in deinem Arbeitsbereich.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Untersuche den DataFrame airports, indem du .show() aufrufst. Beachte, mit welcher Schlüsselspalte du airports mit der Tabelle flights verknüpfen kannst.

  • Benenne die Spalte faa in airports in dest um, indem du das Ergebnis von airports.withColumnRenamed("faa", "dest") an airports neu zuordnest.

  • Verknüpfe den DataFrame flights mit dem DataFrame airports in der Spalte dest, indem du die Methode .join() auf flights aufrufst. Speichere das Ergebnis als flights_with_airports.

    • Das erste Argument muss der andere DataFrame sein, airports.

    • Das Argument on sollte die Schlüsselspalte sein.

    • Das Argument how sollte "leftouter" sein.

  • Rufe .show() für flights_with_airports auf, um die Daten erneut zu prüfen. Beachte die neuen Informationen, die hinzugefügt wurden.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Code bearbeiten und ausführen