Pandafy un DataFrame Spark
Supposons que vous ayez exécuté une requête sur votre énorme ensemble de données et que vous l'ayez agrégé pour le rendre plus facile à gérer.
Il est parfois utile de prendre ce tableau et de le travailler localement à l'aide d'un outil tel que pandas
. Les DataFrames Spark facilitent cette tâche grâce à la méthode .toPandas()
. L'appel de cette méthode sur un DataFrame Spark renvoie le DataFrame pandas
correspondant. C'est aussi simple que cela !
Cette fois, l'interrogation porte sur le nombre de vols à destination de chaque aéroport à partir de SEA et de PDX.
N'oubliez pas qu'il existe déjà un site SparkSession
appelé spark
dans votre espace de travail !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Exécutez la requête à l'aide de la méthode
.sql()
. Enregistrez le résultat dansflight_counts
. - Utilisez la méthode
.toPandas()
surflight_counts
pour créer un DataFramepandas
appelépd_counts
. - Imprimez le site
.head()
depd_counts
sur la console.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)