ComenzarEmpieza gratis

Pandafy en Spark DataFrame

Supón que has ejecutado una consulta en tu enorme conjunto de datos y lo has reducido a algo un poco más manejable.

A veces tiene sentido tomar luego esa tabla y trabajar con ella localmente utilizando una herramienta como pandas. Spark DataFrames te lo pone fácil con el método .toPandas(). Llamar a este método en un Spark DataFrame devuelve el correspondiente pandas DataFrame. Así de sencillo.

Esta vez la consulta cuenta el número de vuelos a cada aeropuerto desde SEA y PDX.

Recuerda, ¡ya hay un SparkSession llamado spark en tu espacio de trabajo!

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Ejecuta la consulta utilizando el método .sql(). Guarda el resultado en flight_counts.
  • Utiliza el método .toPandas() en flight_counts para crear un DataFrame pandas llamado pd_counts.
  • Imprime en la consola la dirección .head() de pd_counts.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Editar y ejecutar código