Joinen II
In PySpark worden joins uitgevoerd met de DataFrame-methode .join(). Deze methode neemt drie argumenten. Het eerste is de tweede DataFrame die je met de eerste wilt joinen. Het tweede argument, on, is de naam van de sleutelkolom(men) als string. De namen van de sleutelkolom(men) moeten in elke tabel hetzelfde zijn. Het derde argument, how, geeft het type join aan. In deze cursus gebruiken we altijd de waarde how="leftouter".
De gegevensset flights en een nieuwe gegevensset genaamd airports staan al in je werkruimte.
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Bekijk de
airportsDataFrame door.show()aan te roepen. Noteer welke sleutelkolom jeairportsmet de tabelflightslaat joinen. - Hernoem de kolom
faainairportsnaardestdoor het resultaat vanairports.withColumnRenamed("faa", "dest")opnieuw toe te wijzen aanairports. - Join
flightsmet de DataFrameairportsop de kolomdestdoor de methode.join()opflightsaan te roepen. Sla het resultaat op alsflights_with_airports.- Het eerste argument moet de andere DataFrame zijn,
airports. - Het argument
onmoet de sleutelkolom zijn. - Het argument
howmoet"leftouter"zijn.
- Het eerste argument moet de andere DataFrame zijn,
- Roep
.show()aan opflights_with_airportsom de gegevens opnieuw te bekijken. Let op de nieuwe informatie die is toegevoegd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)