Aan de slagGa gratis aan de slag

Query uitvoeren op een tijdelijke view

In deze oefening ga je een DataFrame registreren als een tijdelijke SQL-view in PySpark. Tijdelijke views zijn krachtige hulpmiddelen waarmee je data kunt bevragen met SQL-syntaxis, waardoor complexe bewerkingen eenvoudiger en intuïtiever worden. Je doel is om een view te maken van een gegeven DataFrame en er SQL-queries op uit te voeren, een veelvoorkomende taak in ETL- en ELT-werk.

Je hebt al een SparkContext, spark, en een PySpark DataFrame, df, in je werkruimte.

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Registreer een nieuwe view met de naam "data_view" op basis van het DataFrame df.
  • Voer de meegeleverde SQL-query uit om het totale salaris per functie te berekenen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Register as a view
df.____("data_view")

# Advanced SQL query: Calculate total salary by Position
result = ____("""
    SELECT Position, SUM(Salary) AS Total_Salary
    FROM data_view
    GROUP BY Position
    ORDER BY Total_Salary DESC
    """
)
result.show()
Code bewerken en uitvoeren