SQL-query's programmatisch uitvoeren
DataFrames kun je in PySpark eenvoudig bewerken met SQL-query's. De functie sql() in een SparkSession laat applicaties SQL-query's programmatisch uitvoeren en geeft het resultaat terug als een nieuwe DataFrame. In deze oefening maak je een tijdelijke tabel van de DataFrame die je eerder hebt gemaakt, stel je een query samen om de namen van de personen uit de tijdelijke tabel te selecteren en ken je het resultaat toe aan een nieuwe DataFrame.
Onthoud: je hebt al een SparkSession spark en een DataFrame in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een tijdelijke tabel
people. - Stel een
queryop om de namen van de personen uit de tijdelijke tabelpeoplete selecteren. - Ken het resultaat van Spark's
querytoe aan een nieuwe DataFrame:people_df_names. - Print de bovenste 10 namen van de personen uit de DataFrame
people_df_names.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a temporary table "people"
people_df.____("people")
# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)