ComeçarComece gratuitamente

SQL e Parquet

Os arquivos Parquet são perfeitos como um armazenamento de dados de apoio para consultas SQL no Spark. Embora seja possível executar as mesmas consultas diretamente por meio das funções Python do Spark, às vezes é mais fácil executar as consultas do SQL junto com as opções do Python.

Para este exemplo, vamos ler o arquivo Parquet que criamos no último exercício e registrá-lo como uma tabela SQL. Uma vez registrado, executaremos uma consulta rápida na tabela (ou seja, no arquivo Parquet).

O objeto spark e o arquivo AA_DFW_ALL.parquet estão disponíveis para você automaticamente.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver Curso

Instruções de exercício

  • Importe o arquivo AA_DFW_ALL.parquet para flights_df.
  • Use o método createOrReplaceTempView para criar um alias para a tabela flights.
  • Execute uma consulta do Spark SQL na tabela flights.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)
Editar e executar código