Aan de slagGa gratis aan de slag

Joinen II

In PySpark worden joins uitgevoerd met de DataFrame-methode .join(). Deze methode neemt drie argumenten. Het eerste is de tweede DataFrame die je met de eerste wilt joinen. Het tweede argument, on, is de naam van de sleutelkolom(men) als string. De namen van de sleutelkolom(men) moeten in elke tabel hetzelfde zijn. Het derde argument, how, geeft het type join aan. In deze cursus gebruiken we altijd de waarde how="leftouter".

De gegevensset flights en een nieuwe gegevensset genaamd airports staan al in je werkruimte.

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Bekijk de airports DataFrame door .show() aan te roepen. Noteer welke sleutelkolom je airports met de tabel flights laat joinen.
  • Hernoem de kolom faa in airports naar dest door het resultaat van airports.withColumnRenamed("faa", "dest") opnieuw toe te wijzen aan airports.
  • Join flights met de DataFrame airports op de kolom dest door de methode .join() op flights aan te roepen. Sla het resultaat op als flights_with_airports.
    • Het eerste argument moet de andere DataFrame zijn, airports.
    • Het argument on moet de sleutelkolom zijn.
    • Het argument how moet "leftouter" zijn.
  • Roep .show() aan op flights_with_airports om de gegevens opnieuw te bekijken. Let op de nieuwe informatie die is toegevoegd.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Code bewerken en uitvoeren