Junção no Spark SQL
Às vezes, é muito mais fácil escrever junções complexas em SQL. Neste exercício, vamos começar com as chaves de junção já no mesmo formato e precisão, mas usaremos o SparkSQL para fazer a junção.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Registre os DataFrames como tabelas do SparkSQL com
createOrReplaceTempView, nomeando-osdfewalk_df, respectivamente. - Na string
join_sql, defina a tabela da esquerda comodfe a da direita comowalk_df. - Chame
spark.sql()passando a stringjoin_sqlpara executar a junção.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Register dataframes as tables
____.createOrReplaceTempView(____)
____.createOrReplaceTempView(____)
# SQL to join dataframes
join_sql = """
SELECT
*
FROM ____
LEFT JOIN ____
ON df.longitude = walk_df.longitude
AND df.latitude = walk_df.latitude
"""
# Perform sql join
joined_df = spark.sql(____)