IniziaInizia gratis

Analytics con SQL sui DataFrame

Le query SQL sono concise e facili da eseguire rispetto alle operazioni con i DataFrame. Per poterle applicare a un DataFrame, però, devi prima creare una vista temporanea del DataFrame come tabella e poi eseguire le query SQL sulla tabella creata.

Nel tuo workspace hai già a disposizione uno SparkContext spark e salaries_df.

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea la tabella temporanea "salaries_table" dal DataFrame salaries_df.
  • Costruisci una query per estrarre la colonna "job_title" dove company_location è in Canada ("CA").
  • Applica la query SQL e crea un nuovo DataFrame canada_titles.
  • Ottieni un riepilogo della tabella.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Modifica ed esegui il codice