Teil 2: SQL-Abfragen bei einem DataFrame
Der zuvor erstellte DataFrame fifa_df
enthält zusätzliche Informationen über die mit ihm verbundenen Datentypen und Spaltennamen. Anhand dieser zusätzlichen Informationen lassen sich SQL-Abfragen mittels PySpark SQL mit dem DataFrame ausführen. SQL-Abfragen sind im Vergleich zu DataFrame-Operationen übersichtlicher und einfacher auszuführen. Um jedoch SQL-Abfragen auf den DataFrame anwenden zu können, musst du zunächst eine temporäre Sicht für den DataFrame als Tabelle erstellen und dann die SQL-Abfragen auf diese Tabelle anwenden (d. h., die SQL-Abfragen werden programmatisch ausgeführt).
Im zweiten Teil der Übung erstellst du eine temporäre Tabelle aus dem DataFrame fifa_df
und führst SQL-Abfragen aus, um die Spalte mit dem Alter der Spieler aus Deutschland zu extrahieren.
Der SparkContext spark
und fifa_df
sind bereits im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle eine temporäre Tabelle namens
fifa_df_table
aus dem DataFramefifa_df
. - Erstelle eine Abfrage („Query“), um die Spalte mit dem Alter („Age“) von deutschen Spielern aus
fifa_df_table
zu extrahieren. - Wende die SQL-„Query“ an und erstelle einen neuen DataFrame namens
fifa_df_germany_age
. - Berechne grundlegende Statistiken für den erstellten DataFrame.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()