Aan de slagBegin gratis

SQL uitvoeren op DataFrames

DataFrames kun je in PySpark eenvoudig bewerken met SQL-queries. De .sql()-methode in een SparkSession stelt toepassingen in staat om SQL-queries programmatisch uit te voeren en geeft het resultaat terug als een andere DataFrame. In deze oefening maak je een tijdelijke tabel van een DataFrame dat je eerder hebt gemaakt. Daarna schrijf je een query om de namen van de personen uit de tijdelijke tabel te selecteren en ken je het resultaat toe aan een nieuwe DataFrame.

Onthoud: je hebt al een SparkSession spark en een DataFrame df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Bekijk cursus

Oefeninstructies

  • Maak een tijdelijke tabel met de naam "people" op basis van de DataFrame df.
  • Schrijf een query om de namen van de personen te selecteren uit de tijdelijke tabel people.
  • Ken het resultaat van Spark's query toe aan een nieuwe DataFrame met de naam people_df_names.
  • Print de bovenste 10 namen van de personen uit de DataFrame people_df_names.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a temporary table "people"
df.____("people")

# Select the names from the temporary table people
query = """SELECT name FROM ____"""

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Code bewerken en uitvoeren