CommencerCommencer gratuitement

Analyser avec SQL sur des DataFrames

Les requêtes SQL sont concises et faciles à exécuter par rapport aux opérations sur les DataFrames. Mais pour pouvoir appliquer des requêtes SQL sur un DataFrame, vous devez d’abord créer une vue temporaire du DataFrame sous forme de table, puis exécuter vos requêtes SQL sur cette table.

Vous disposez déjà d’un SparkContext spark et de salaries_df dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Créez la table temporaire "salaries_table" à partir du DataFrame salaries_df.
  • Rédigez une requête pour extraire la colonne "job_title" pour company_location au Canada ("CA").
  • Appliquez la requête SQL et créez un nouveau DataFrame canada_titles.
  • Obtenez un résumé de la table.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Modifier et exécuter le code