SQL uitvoeren op DataFrames
DataFrames kun je in PySpark eenvoudig bewerken met SQL-queries. De .sql()-methode in een SparkSession stelt toepassingen in staat om SQL-queries programmatisch uit te voeren en geeft het resultaat terug als een andere DataFrame. In deze oefening maak je een tijdelijke tabel van een DataFrame dat je eerder hebt gemaakt. Daarna schrijf je een query om de namen van de personen uit de tijdelijke tabel te selecteren en ken je het resultaat toe aan een nieuwe DataFrame.
Onthoud: je hebt al een SparkSession spark en een DataFrame df beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Maak een tijdelijke tabel met de naam
"people"op basis van de DataFramedf. - Schrijf een query om de namen van de personen te selecteren uit de tijdelijke tabel
people. - Ken het resultaat van Spark's query toe aan een nieuwe DataFrame met de naam
people_df_names. - Print de bovenste 10 namen van de personen uit de DataFrame
people_df_names.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)