ComeçarComece de graça

Como pandificar um DataFrame do Spark

Suponha que você tenha executado uma consulta em seu enorme conjunto de dados e o tenha agregado a algo um pouco mais gerenciável.

Às vezes, faz sentido que você pegue essa tabela e trabalhe com ela localmente usando uma ferramenta como o pandas. Os DataFrames do Spark facilitam isso com o método .toPandas(). Se você chamar esse método com um DataFrame do Spark, ele retornará o DataFrame correspondente do pandas. É simples assim!

Desta vez, a consulta conta o número de voos para cada aeroporto vindos de SEA e PDX.

Lembre-se de que já existe uma SparkSession chamada spark em seu espaço de trabalho!

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Execute a consulta usando o método .sql(). Salve o resultado em flight_counts.
  • Use o método .toPandas() com flight_counts para criar um DataFrame do pandas chamado pd_counts.
  • Imprima o .head() de pd_counts no console.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Editar e executar o código