Analysen mit SQL auf DataFrames
SQL-Abfragen sind im Vergleich zu DataFrame-Operationen kurz und leicht auszuführen. Um SQL-Abfragen auf einen DataFrame anzuwenden, musst du zuerst eine temporäre View des DataFrames als Tabelle erstellen und dann SQL-Abfragen auf die erstellte Tabelle anwenden.
In deiner Arbeitsumgebung stehen dir bereits ein SparkContext spark und salaries_df zur Verfügung.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Erstelle aus dem DataFrame
salaries_dfdie temporäre Tabelle"salaries_table". - Formuliere eine Abfrage, um die Spalte "job_title" für
company_locationin Kanada ("CA") zu extrahieren. - Wende die SQL-Abfrage an und erstelle den neuen DataFrame
canada_titles. - Lass dir eine Zusammenfassung der Tabelle ausgeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()