Análises com SQL em DataFrames
Consultas SQL são concisas e fáceis de executar quando comparadas às operações com DataFrames. Mas, para aplicar consultas SQL em um DataFrame, primeiro você precisa criar uma visualização temporária do DataFrame como uma tabela e, em seguida, aplicar as consultas SQL nessa tabela criada.
Você já tem um SparkContext spark e o salaries_df disponíveis no seu workspace.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Crie a tabela temporária
"salaries_table"a partir do DataFramesalaries_df. - Construa uma consulta para extrair a coluna "job_title" de
company_locationno Canadá ("CA"). - Aplique a consulta SQL e crie um novo DataFrame
canada_titles. - Obtenha um resumo da tabela.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()