Como pandificar um DataFrame do Spark
Suponha que você tenha executado uma consulta em seu enorme conjunto de dados e o tenha agregado a algo um pouco mais gerenciável.
Às vezes, faz sentido que você pegue essa tabela e trabalhe com ela localmente usando uma ferramenta como o pandas
. Os DataFrames do Spark facilitam isso com o método .toPandas()
. Se você chamar esse método com um DataFrame do Spark, ele retornará o DataFrame correspondente do pandas
. É simples assim!
Desta vez, a consulta conta o número de voos para cada aeroporto vindos de SEA e PDX.
Lembre-se de que já existe uma SparkSession
chamada spark
em seu espaço de trabalho!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Execute a consulta usando o método
.sql()
. Salve o resultado emflight_counts
. - Use o método
.toPandas()
comflight_counts
para criar um DataFrame dopandas
chamadopd_counts
. - Imprima o
.head()
depd_counts
no console.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)