Analytics con SQL sui DataFrame
Le query SQL sono concise e facili da eseguire rispetto alle operazioni con i DataFrame. Per poterle applicare a un DataFrame, però, devi prima creare una vista temporanea del DataFrame come tabella e poi eseguire le query SQL sulla tabella creata.
Nel tuo workspace hai già a disposizione uno SparkContext spark e salaries_df.
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Crea la tabella temporanea
"salaries_table"dal DataFramesalaries_df. - Costruisci una query per estrarre la colonna "job_title" dove
company_locationè in Canada ("CA"). - Applica la query SQL e crea un nuovo DataFrame
canada_titles. - Ottieni un riepilogo della tabella.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()