ComeçarComece gratuitamente

Parte 2: Consultas SQL no DataFrame

O DataFrame fifa_df que criamos tem informações adicionais sobre tipos de dados e nomes de colunas associados a ele. Essas informações adicionais permitem que o PySpark SQL execute consultas SQL no DataFrame. As consultas SQL são concisas e fáceis de executar em comparação com as operações do DataFrame. Mas, para aplicar as consultas SQL no DataFrame primeiro, você precisa criar uma visualização temporária do DataFrame como uma tabela e, em seguida, aplicar as consultas SQL na tabela criada (Executar consultas SQL programaticamente).

Na segunda parte, você criará uma tabela temporária do DataFrame fifa_df e executará as consultas SQL para extrair a coluna "Age" dos jogadores da Alemanha.

Você já tem um SparkContext spark e fifa_df disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Criar tabela temporária fifa_df_table a partir do DataFrame fifa_df.
  • Construa uma "consulta" para extrair a coluna "Age" dos jogadores da Alemanha (Germany) em fifa_df_table.
  • Aplique a "consulta" SQL e crie um novo DataFrame fifa_df_germany_age.
  • Calcula as estatísticas básicas do DataFrame criado.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')

# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''

# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)

# Generate basic statistics
fifa_df_germany_age.____().show()
Editar e executar código