SQL und Parkett
Parquet-Dateien eignen sich perfekt als Backing-Datenspeicher für SQL-Abfragen in Spark. Es ist zwar möglich, die gleichen Abfragen direkt über die Python-Funktionen von Spark auszuführen, aber manchmal ist es einfacher, neben den Python-Optionen auch SQL-Abfragen auszuführen.
In diesem Beispiel lesen wir die Parquet-Datei ein, die wir in der letzten Übung erstellt haben, und registrieren sie als SQL-Tabelle. Sobald wir registriert sind, führen wir eine kurze Abfrage gegen die Tabelle (auch bekannt als die Parquet-Datei) durch.
Das Objekt spark
und die Datei AA_DFW_ALL.parquet
sind automatisch für dich verfügbar.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Importiere die Datei
AA_DFW_ALL.parquet
inflights_df
. - Verwende die Methode
createOrReplaceTempView
, um die Tabelleflights
zu verfremden. - Führe eine Spark SQL-Abfrage gegen die Tabelle
flights
aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)