Erste SchritteKostenlos loslegen

Teil 2: SQL-Abfragen bei einem DataFrame

Der zuvor erstellte DataFrame fifa_df enthält zusätzliche Informationen über die mit ihm verbundenen Datentypen und Spaltennamen. Anhand dieser zusätzlichen Informationen lassen sich SQL-Abfragen mittels PySpark SQL mit dem DataFrame ausführen. SQL-Abfragen sind im Vergleich zu DataFrame-Operationen übersichtlicher und einfacher auszuführen. Um jedoch SQL-Abfragen auf den DataFrame anwenden zu können, musst du zunächst eine temporäre Sicht für den DataFrame als Tabelle erstellen und dann die SQL-Abfragen auf diese Tabelle anwenden (d. h., die SQL-Abfragen werden programmatisch ausgeführt).

Im zweiten Teil der Übung erstellst du eine temporäre Tabelle aus dem DataFrame fifa_df und führst SQL-Abfragen aus, um die Spalte mit dem Alter der Spieler aus Deutschland zu extrahieren.

Der SparkContext spark und fifa_df sind bereits im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine temporäre Tabelle namens fifa_df_table aus dem DataFrame fifa_df.
  • Erstelle eine Abfrage („Query“), um die Spalte mit dem Alter („Age“) von deutschen Spielern aus fifa_df_table zu extrahieren.
  • Wende die SQL-„Query“ an und erstelle einen neuen DataFrame namens fifa_df_germany_age.
  • Berechne grundlegende Statistiken für den erstellten DataFrame.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')

# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''

# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)

# Generate basic statistics
fifa_df_germany_age.____().show()
Bearbeiten und Ausführen von Code