Aan de slagGa gratis aan de slag

Analytics met SQL op DataFrames

SQL-queries zijn beknopt en eenvoudig uit te voeren vergeleken met DataFrame-bewerkingen. Maar om SQL-queries op een DataFrame toe te passen, moet je eerst een tijdelijke view van de DataFrame als tabel maken en daarna de SQL-queries op die tabel uitvoeren.

Je hebt al een SparkContext spark en salaries_df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Maak een tijdelijke tabel "salaries_table" van de DataFrame salaries_df.
  • Schrijf een query die de kolom "job_title" ophaalt voor company_location in Canada ("CA").
  • Voer de SQL-query uit en maak een nieuwe DataFrame canada_titles.
  • Vraag een samenvatting van de tabel op.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Code bewerken en uitvoeren