1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Łączenie tabel w Spark SQL

Czasem łatwiej jest napisać złożone złączenia (join) w SQL niż w kodzie PySpark. W tym ćwiczeniu klucze złączenia mają już ten sam format i precyzję – skorzystasz ze Spark SQL, aby wykonać operację łączenia.

Instrukcje

100 XP
  • Zarejestruj ramki danych jako tabele SparkSQL za pomocą createOrReplaceTempView – nadaj im nazwy odpowiednio df i walk_df.
  • W łańcuchu znaków join_sql ustaw lewą tabelę jako df, a prawą jako walk_df.
  • Wywołaj spark.sql() na łańcuchu join_sql, aby wykonać złączenie.