Executando SQL em DataFrames
DataFrames podem ser facilmente manipulados usando consultas SQL no PySpark. O método .sql() em uma SparkSession permite executar consultas SQL de forma programática e retorna o resultado como outro DataFrame. Neste exercício, você vai criar uma tabela temporária de um DataFrame que criou anteriormente, depois escrever uma consulta para selecionar os nomes das pessoas dessa tabela temporária e atribuir o resultado a um novo DataFrame.
Lembre-se: você já tem uma SparkSession spark e um DataFrame df disponíveis no seu workspace.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Crie uma tabela temporária chamada
"people"a partir do DataFramedf. - Escreva uma consulta para selecionar os nomes das pessoas da tabela temporária
people. - Atribua o resultado da consulta do Spark a um novo DataFrame chamado
people_df_names. - Imprima os 10 primeiros nomes das pessoas do DataFrame
people_df_names.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)