ComeçarComece de graça

Curioso para fazer consultas?

Uma das vantagens da interface do DataFrame é que você pode executar consultas SQL nas tabelas do cluster do Spark. Se você não tem experiência com o SQL, não se preocupe, nós vamos disponibilizar consultas! Para saber mais sobre SQL, comece pelo nosso curso Introdução ao SQL.

Como você viu no último exercício, uma das tabelas do seu cluster é a tabela flights. Esta tabela contém uma linha para cada voo que saiu do Aeroporto Internacional de Portland (PDX) ou do Aeroporto Internacional de Seattle-Tacoma (SEA) em 2014 e 2015.

Para executar uma consulta com essa tabela, é fácil: basta usar o método .sql() com sua SparkSession. Esse método recebe uma string que contém a consulta e retorna um DataFrame com os resultados!

Se você observar com atenção, verá que a tabela flights é mencionada apenas na consulta, não como argumento de nenhum dos métodos. Isso ocorre porque não há um objeto local em seu ambiente que contenha esses dados, portanto não faria sentido passar a tabela como argumento.

Lembre-se de que já criamos uma SparkSession chamada spark em seu espaço de trabalho (ela não se chama mais my_spark porque a criamos para você!).

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Use o método .sql() para obter as dez primeiras linhas da tabela flights e salve o resultado em flights10. A variável query contém a consulta SQL pertinente.
  • Use o método de DataFrames .show() para imprimir flights10.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Don't change this query
query = "FROM flights SELECT * LIMIT 10"

# Get the first 10 rows of flights
flights10 = ____

# Show the results
flights10.____
Editar e executar o código