Erste SchritteKostenlos loslegen

SQL-Abfragen programmatisch ausführen

DataFrames können mit SQL-Abfragen in PySpark leicht manipuliert werden. Die Funktion sql() in einer SparkSession ermöglicht es Anwendungen, SQL-Abfragen programmatisch auszuführen und das Ergebnis als weiteren DataFrame zurückzugeben. In dieser Übung erstellst du eine temporäre Tabelle aus dem zuvor erstellten DataFrame. Dann konstruierst du eine Abfrage, um die Namen der Personen aus der temporären Tabelle auszuwählen und das Ergebnis einem neuen DataFrame zuzuweisen.

Zur Erinnerung: Die SparkSession spark und ein DataFrame sind bereits im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine temporäre Tabelle namens people.
  • Erstelle eine query, um die Namen der Personen aus der temporären Tabelle people auszuwählen.
  • Weise das Ergebnis der Sparks-query einem neuen DataFrame namens people_df_names zu.
  • Gib die zehn häufigsten Namen der Personen im DataFrame people_df_names aus.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create a temporary table "people"
people_df.____("people")

# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Bearbeiten und Ausführen von Code