SQL auf DataFrames ausführen
DataFrames lassen sich in PySpark leicht mit SQL-Abfragen verarbeiten. Die .sql()-Methode in einer SparkSession ermöglicht es, SQL-Abfragen programmatisch auszuführen und liefert das Ergebnis als weiteres DataFrame zurück. In dieser Übung erstellst du zunächst eine temporäre Tabelle aus einem DataFrame, das du zuvor erstellt hast, konstruierst dann eine Abfrage, um die Namen der Personen aus der temporären Tabelle auszuwählen, und weist das Ergebnis einem neuen DataFrame zu.
Denke daran: In deinem Arbeitsbereich stehen dir bereits eine SparkSession spark und ein DataFrame df zur Verfügung.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Erstelle eine temporäre Tabelle namens
"people"aus dem DataFramedf. - Formuliere eine Abfrage, um die Namen der Personen aus der temporären Tabelle
peopleauszuwählen. - Weise das Ergebnis der Spark-Abfrage einem neuen DataFrame namens
people_df_nameszu. - Gib die obersten 10 Namen der Personen aus dem DataFrame
people_df_namesaus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)