Aan de slagGa gratis aan de slag

SQL uitvoeren op DataFrames

DataFrames kun je in PySpark eenvoudig bewerken met SQL-queries. De .sql()-methode in een SparkSession stelt toepassingen in staat om SQL-queries programmatisch uit te voeren en geeft het resultaat terug als een andere DataFrame. In deze oefening maak je een tijdelijke tabel van een DataFrame dat je eerder hebt gemaakt. Daarna schrijf je een query om de namen van de personen uit de tijdelijke tabel te selecteren en ken je het resultaat toe aan een nieuwe DataFrame.

Onthoud: je hebt al een SparkSession spark en een DataFrame df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Maak een tijdelijke tabel met de naam "people" op basis van de DataFrame df.
  • Schrijf een query om de namen van de personen te selecteren uit de tijdelijke tabel people.
  • Ken het resultaat van Spark's query toe aan een nieuwe DataFrame met de naam people_df_names.
  • Print de bovenste 10 namen van de personen uit de DataFrame people_df_names.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a temporary table "people"
df.____("people")

# Select the names from the temporary table people
query = """SELECT name FROM ____"""

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Code bewerken en uitvoeren