CommencerCommencer gratuitement

Pandafy un DataFrame Spark

Supposons que vous ayez exécuté une requête sur votre énorme ensemble de données et que vous l'ayez agrégé pour le rendre plus facile à gérer.

Il est parfois utile de prendre ce tableau et de le travailler localement à l'aide d'un outil tel que pandas. Les DataFrames Spark facilitent cette tâche grâce à la méthode .toPandas(). L'appel de cette méthode sur un DataFrame Spark renvoie le DataFrame pandas correspondant. C'est aussi simple que cela !

Cette fois, l'interrogation porte sur le nombre de vols à destination de chaque aéroport à partir de SEA et de PDX.

N'oubliez pas qu'il existe déjà un site SparkSession appelé spark dans votre espace de travail !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Exécutez la requête à l'aide de la méthode .sql(). Enregistrez le résultat dans flight_counts.
  • Utilisez la méthode .toPandas() sur flight_counts pour créer un DataFrame pandas appelé pd_counts.
  • Imprimez le site .head() de pd_counts sur la console.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Modifier et exécuter le code