Parte 2: Consultas SQL no DataFrame
O DataFrame fifa_df
que criamos tem informações adicionais sobre tipos de dados e nomes de colunas associados a ele. Essas informações adicionais permitem que o PySpark SQL execute consultas SQL no DataFrame. As consultas SQL são concisas e fáceis de executar em comparação com as operações do DataFrame. Mas, para aplicar as consultas SQL no DataFrame primeiro, você precisa criar uma visualização temporária do DataFrame como uma tabela e, em seguida, aplicar as consultas SQL na tabela criada (Executar consultas SQL programaticamente).
Na segunda parte, você criará uma tabela temporária do DataFrame fifa_df
e executará as consultas SQL para extrair a coluna "Age" dos jogadores da Alemanha.
Você já tem um SparkContext spark
e fifa_df
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Criar tabela temporária
fifa_df_table
a partir do DataFramefifa_df
. - Construa uma "consulta" para extrair a coluna "Age" dos jogadores da Alemanha (Germany) em
fifa_df_table
. - Aplique a "consulta" SQL e crie um novo DataFrame
fifa_df_germany_age
. - Calcula as estatísticas básicas do DataFrame criado.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()