Pandafy en Spark DataFrame
Supón que has ejecutado una consulta en tu enorme conjunto de datos y lo has reducido a algo un poco más manejable.
A veces tiene sentido tomar luego esa tabla y trabajar con ella localmente utilizando una herramienta como pandas
. Spark DataFrames te lo pone fácil con el método .toPandas()
. Llamar a este método en un Spark DataFrame devuelve el correspondiente pandas
DataFrame. Así de sencillo.
Esta vez la consulta cuenta el número de vuelos a cada aeropuerto desde SEA y PDX.
Recuerda, ¡ya hay un SparkSession
llamado spark
en tu espacio de trabajo!
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Ejecuta la consulta utilizando el método
.sql()
. Guarda el resultado enflight_counts
. - Utiliza el método
.toPandas()
enflight_counts
para crear un DataFramepandas
llamadopd_counts
. - Imprime en la consola la dirección
.head()
depd_counts
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)