LoslegenKostenlos loslegen

SQL auf DataFrames ausführen

DataFrames lassen sich in PySpark bequem mit SQL-Abfragen bearbeiten. Die .sql()-Methode in einer SparkSession ermöglicht es, SQL-Abfragen programmatisch auszuführen und gibt das Ergebnis als weiteren DataFrame zurück. In dieser Übung erstellst du zunächst eine temporäre Tabelle aus einem bereits zuvor erzeugten DataFrame, formulierst dann eine Abfrage, um die Namen der Personen aus der temporären Tabelle auszuwählen, und weist das Ergebnis einem neuen DataFrame zu.

Denke daran: In deinem Workspace stehen dir bereits eine SparkSession spark und ein DataFrame df zur Verfügung.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine temporäre Tabelle mit dem Namen "people" aus dem DataFrame df.
  • Formuliere eine Abfrage, welche die Namen der Personen aus der temporären Tabelle people auswählt.
  • Weisen das Ergebnis der Spark-Abfrage einem neuen DataFrame namens people_df_names zu.
  • Gib die ersten zehn Namen der Personen aus dem DataFrame people_df_names aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a temporary table "people"
df.____("people")

# Select the names from the temporary table people
query = """SELECT name FROM ____"""

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Code bearbeiten und ausführen