CommencerCommencer gratuitement

Exécution programmatique de requêtes SQL

Vous pouvez facilement manipuler des DataFrame à l'aide de requêtes SQL dans PySpark. La fonction sql() dans une SparkSession permet aux applications d'exécuter des requêtes SQL de manière programmatique et renvoie le résultat sous la forme d'un autre DataFrame. Dans cet exercice, vous allez créer une table temporaire du DataFrame que vous avez créé précédemment, puis construire une requête pour sélectionner les noms des personnes dans la table temporaire et affecter le résultat à un nouveau DataFrame.

N'oubliez pas que vous disposez déjà d'une SparkSession spark et d'un DataFrame dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Créez une table temporaire people.
  • Construisez une requête query pour sélectionner les noms des personnes dans la table temporaire people.
  • Affectez le résultat de la requête query de Spark à un nouveau DataFrame : people_df_names.
  • Affichez les 10 premiers noms des personnes à partir du DataFrame people_df_names.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a temporary table "people"
people_df.____("people")

# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Modifier et exécuter le code