Analyser avec SQL sur des DataFrames
Les requêtes SQL sont concises et faciles à exécuter par rapport aux opérations sur les DataFrames. Mais pour pouvoir appliquer des requêtes SQL sur un DataFrame, vous devez d’abord créer une vue temporaire du DataFrame sous forme de table, puis exécuter vos requêtes SQL sur cette table.
Vous disposez déjà d’un SparkContext spark et de salaries_df dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Créez la table temporaire
"salaries_table"à partir du DataFramesalaries_df. - Rédigez une requête pour extraire la colonne "job_title" pour
company_locationau Canada ("CA"). - Appliquez la requête SQL et créez un nouveau DataFrame
canada_titles. - Obtenez un résumé de la table.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()