CommencerCommencer gratuitement

Exécuter du SQL sur des DataFrames

Les DataFrames peuvent être facilement manipulés avec des requêtes SQL dans PySpark. La méthode .sql() d’une SparkSession permet d’exécuter des requêtes SQL de manière programmatique et renvoie le résultat sous forme d’un autre DataFrame. Dans cet exercice, vous allez créer une table temporaire à partir d’un DataFrame que vous avez déjà créé, puis rédiger une requête pour sélectionner les noms des personnes depuis cette table temporaire et affecter le résultat à un nouveau DataFrame.

Rappelez-vous que vous disposez déjà d’une SparkSession spark et d’un DataFrame df dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Créez une table temporaire nommée "people" à partir du DataFrame df.
  • Rédigez une requête pour sélectionner les noms des personnes depuis la table temporaire people.
  • Affectez le résultat de la requête Spark à un nouveau DataFrame appelé people_df_names.
  • Affichez les 10 premiers noms des personnes depuis le DataFrame people_df_names.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a temporary table "people"
df.____("people")

# Select the names from the temporary table people
query = """SELECT name FROM ____"""

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Modifier et exécuter le code