ComeçarComece de graça

Junção no Spark SQL

Às vezes, é muito mais fácil escrever junções complexas em SQL. Neste exercício, vamos começar com as chaves de junção já no mesmo formato e precisão, mas usaremos o SparkSQL para fazer a junção.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Registre os DataFrames como tabelas do SparkSQL com createOrReplaceTempView, nomeando-os df e walk_df, respectivamente.
  • Na string join_sql, defina a tabela da esquerda como df e a da direita como walk_df.
  • Chame spark.sql() passando a string join_sql para executar a junção.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Register dataframes as tables
____.createOrReplaceTempView(____)
____.createOrReplaceTempView(____)

# SQL to join dataframes
join_sql = 	"""
			SELECT 
				*
			FROM ____
			LEFT JOIN ____
			ON df.longitude = walk_df.longitude
			AND df.latitude = walk_df.latitude
			"""
# Perform sql join
joined_df = spark.sql(____)
Editar e executar o código