Aan de slagGa gratis aan de slag

SQL-query's programmatisch uitvoeren

DataFrames kun je in PySpark eenvoudig bewerken met SQL-query's. De functie sql() in een SparkSession laat applicaties SQL-query's programmatisch uitvoeren en geeft het resultaat terug als een nieuwe DataFrame. In deze oefening maak je een tijdelijke tabel van de DataFrame die je eerder hebt gemaakt, stel je een query samen om de namen van de personen uit de tijdelijke tabel te selecteren en ken je het resultaat toe aan een nieuwe DataFrame.

Onthoud: je hebt al een SparkSession spark en een DataFrame in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Maak een tijdelijke tabel people.
  • Stel een query op om de namen van de personen uit de tijdelijke tabel people te selecteren.
  • Ken het resultaat van Spark's query toe aan een nieuwe DataFrame: people_df_names.
  • Print de bovenste 10 namen van de personen uit de DataFrame people_df_names.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a temporary table "people"
people_df.____("people")

# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Code bewerken en uitvoeren