ComeçarComece gratuitamente

Executar consultas SQL programaticamente

Os DataFrames podem ser facilmente manipulados usando consultas SQL no PySpark. A função sql() em uma SparkSession permite que os aplicativos executem consultas SQL de forma programática e retorna o resultado como outro DataFrame. Neste exercício, você criará uma tabela temporária do DataFrame que criou anteriormente e, em seguida, construirá uma consulta para selecionar os nomes das pessoas da tabela temporária e atribuir o resultado a um novo DataFrame.

Lembre-se de que você já tem uma SparkSession spark e um DataFrame disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Crie uma tabela temporária people.
  • Construa uma consulta (query) para selecionar os nomes das pessoas da tabela temporária people.
  • Atribua o resultado da consulta (query) do Spark a um novo DataFrame: people_df_names.
  • Imprima os 10 principais nomes das pessoas do DataFrame people_df_names.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create a temporary table "people"
people_df.____("people")

# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Editar e executar código