SQL und Parquet
Parquet-Dateien eignen sich perfekt als Datenspeicher für SQL-Abfragen in Spark. Zwar lassen sich dieselben Abfragen auch direkt über die Python-Funktionen von Spark ausführen, aber manchmal ist es einfacher, SQL-Abfragen parallel zu den Python-Optionen zu nutzen.
In diesem Beispiel lesen wir die Parquet-Datei ein, die wir in der letzten Übung erstellt haben, und registrieren sie als SQL-Tabelle. Sobald sie registriert ist, führen wir eine kurze Abfrage auf der Tabelle (also der Parquet-Datei) aus.
Das spark-Objekt und die Datei AA_DFW_ALL.parquet stehen dir automatisch zur Verfügung.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Importiere die Datei
AA_DFW_ALL.parquetinflights_df. - Verwende die Methode
createOrReplaceTempView, um die Tabelleflightsals Alias zu registrieren. - Führe eine Spark-SQL-Abfrage auf der Tabelle
flightsaus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)