ComeçarComece de graça

Análises com SQL em DataFrames

Consultas SQL são concisas e fáceis de executar quando comparadas às operações com DataFrames. Mas, para aplicar consultas SQL em um DataFrame, primeiro você precisa criar uma visualização temporária do DataFrame como uma tabela e, em seguida, aplicar as consultas SQL nessa tabela criada.

Você já tem um SparkContext spark e o salaries_df disponíveis no seu workspace.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Crie a tabela temporária "salaries_table" a partir do DataFrame salaries_df.
  • Construa uma consulta para extrair a coluna "job_title" de company_location no Canadá ("CA").
  • Aplique a consulta SQL e crie um novo DataFrame canada_titles.
  • Obtenha um resumo da tabela.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Editar e executar o código