Analytics met SQL op DataFrames
SQL-queries zijn beknopt en eenvoudig uit te voeren vergeleken met DataFrame-bewerkingen. Maar om SQL-queries op een DataFrame toe te passen, moet je eerst een tijdelijke view van de DataFrame als tabel maken en daarna de SQL-queries op die tabel uitvoeren.
Je hebt al een SparkContext spark en salaries_df beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Maak een tijdelijke tabel
"salaries_table"van de DataFramesalaries_df. - Schrijf een query die de kolom "job_title" ophaalt voor
company_locationin Canada ("CA"). - Voer de SQL-query uit en maak een nieuwe DataFrame
canada_titles. - Vraag een samenvatting van de tabel op.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()