1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

Spark SQL 조인

복잡한 조인을 작성할 때는 SQL이 훨씬 쉬울 때가 있어요. 이 연습에서는 조인 키가 이미 같은 형식과 정밀도로 맞춰져 있다고 가정하고, 조인은 SparkSQL로 수행해 보겠습니다.

지침

100 XP
  • createOrReplaceTempView로 DataFrame을 SparkSQL 테이블로 등록하고, 각각의 이름을 df, walk_df로 지정하세요.
  • join_sql 문자열에서 왼쪽 테이블은 df, 오른쪽 테이블은 walk_df로 설정하세요.
  • 조인을 수행하려면 join_sql 문자열을 spark.sql()에 전달해 호출하세요.