Exécution programmatique de requêtes SQL
Vous pouvez facilement manipuler des DataFrame à l'aide de requêtes SQL dans PySpark. La fonction sql()
dans une SparkSession permet aux applications d'exécuter des requêtes SQL de manière programmatique et renvoie le résultat sous la forme d'un autre DataFrame. Dans cet exercice, vous allez créer une table temporaire du DataFrame que vous avez créé précédemment, puis construire une requête pour sélectionner les noms des personnes dans la table temporaire et affecter le résultat à un nouveau DataFrame.
N'oubliez pas que vous disposez déjà d'une SparkSession spark
et d'un DataFrame dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez une table temporaire
people
. - Construisez une requête
query
pour sélectionner les noms des personnes dans la table temporairepeople
. - Affectez le résultat de la requête
query
de Spark à un nouveau DataFrame :people_df_names
. - Affichez les 10 premiers noms des personnes à partir du DataFrame
people_df_names
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a temporary table "people"
people_df.____("people")
# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)