Exécuter du SQL sur des DataFrames
Les DataFrames peuvent être facilement manipulés avec des requêtes SQL dans PySpark. La méthode .sql() d’une SparkSession permet d’exécuter des requêtes SQL de manière programmatique et renvoie le résultat sous forme d’un autre DataFrame. Dans cet exercice, vous allez créer une table temporaire à partir d’un DataFrame que vous avez déjà créé, puis rédiger une requête pour sélectionner les noms des personnes depuis cette table temporaire et affecter le résultat à un nouveau DataFrame.
Rappelez-vous que vous disposez déjà d’une SparkSession spark et d’un DataFrame df dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Créez une table temporaire nommée
"people"à partir du DataFramedf. - Rédigez une requête pour sélectionner les noms des personnes depuis la table temporaire
people. - Affectez le résultat de la requête Spark à un nouveau DataFrame appelé
people_df_names. - Affichez les 10 premiers noms des personnes depuis le DataFrame
people_df_names.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)