1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Spojování tabulek II

V PySparku se tabulky spojují pomocí metody .join() třídy DataFrame. Tato metoda přijímá tři argumenty. První je druhý DataFrame, který chceš spojit s tím prvním. Druhý argument, on, je název klíčového sloupce (nebo sloupců) jako řetězec. Názvy klíčových sloupců musí být v obou tabulkách stejné. Třetí argument, how, určuje typ spojení. V tomto kurzu budeme vždy používat hodnotu how="leftouter".

Dataset flights a nový dataset airports už máš k dispozici ve svém pracovním prostoru.

Pokyny

100 XP
  • Prohlédni si DataFrame airports pomocí metody .show(). Všimni si, který klíčový sloupec umožní spojit airports s tabulkou flights.
  • Přejmenuj sloupec faa v DataFramu airports na dest tak, že výsledek volání airports.withColumnRenamed("faa", "dest") přiřadíš zpět do proměnné airports.
  • Spoj DataFrame flights s DataFramem airports přes sloupec dest – zavolej metodu .join() na objektu flights. Výsledek ulož jako flights_with_airports.
    • Prvním argumentem by měl být druhý DataFrame, tedy airports.
    • Argument on by měl být klíčový sloupec.
    • Argument how by měl mít hodnotu "leftouter".
  • Zavolej .show() na flights_with_airports a prohlédni si data. Všimni si nových informací, které přibyly.