LoslegenKostenlos loslegen

Analysen mit SQL auf DataFrames

SQL-Abfragen sind im Vergleich zu DataFrame-Operationen kurz und leicht auszuführen. Um SQL-Abfragen auf einen DataFrame anzuwenden, musst du zuerst eine temporäre View des DataFrames als Tabelle erstellen und dann SQL-Abfragen auf die erstellte Tabelle anwenden.

In deiner Arbeitsumgebung stehen dir bereits ein SparkContext spark und salaries_df zur Verfügung.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle aus dem DataFrame salaries_df die temporäre Tabelle "salaries_table".
  • Formuliere eine Abfrage, um die Spalte "job_title" für company_location in Kanada ("CA") zu extrahieren.
  • Wende die SQL-Abfrage an und erstelle den neuen DataFrame canada_titles.
  • Lass dir eine Zusammenfassung der Tabelle ausgeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Code bearbeiten und ausführen