SQL-Abfragen programmatisch ausführen
DataFrames können mit SQL-Abfragen in PySpark leicht manipuliert werden. Die Funktion sql()
in einer SparkSession ermöglicht es Anwendungen, SQL-Abfragen programmatisch auszuführen und das Ergebnis als weiteren DataFrame zurückzugeben. In dieser Übung erstellst du eine temporäre Tabelle aus dem zuvor erstellten DataFrame. Dann konstruierst du eine Abfrage, um die Namen der Personen aus der temporären Tabelle auszuwählen und das Ergebnis einem neuen DataFrame zuzuweisen.
Zur Erinnerung: Die SparkSession spark
und ein DataFrame sind bereits im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle eine temporäre Tabelle namens
people
. - Erstelle eine
query
, um die Namen der Personen aus der temporären Tabellepeople
auszuwählen. - Weise das Ergebnis der Sparks-
query
einem neuen DataFrame namenspeople_df_names
zu. - Gib die zehn häufigsten Namen der Personen im DataFrame
people_df_names
aus.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create a temporary table "people"
people_df.____("people")
# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)