SQL und Parkett

Parquet-Dateien eignen sich perfekt als Backing-Datenspeicher für SQL-Abfragen in Spark. Es ist zwar möglich, die gleichen Abfragen direkt über die Python-Funktionen von Spark auszuführen, aber manchmal ist es einfacher, neben den Python-Optionen auch SQL-Abfragen auszuführen.

In diesem Beispiel lesen wir die Parquet-Datei ein, die wir in der letzten Übung erstellt haben, und registrieren sie als SQL-Tabelle. Sobald wir registriert sind, führen wir eine kurze Abfrage gegen die Tabelle (auch bekannt als die Parquet-Datei) durch.

Das Objekt spark und die Datei AA_DFW_ALL.parquet sind automatisch für dich verfügbar.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Importiere die Datei AA_DFW_ALL.parquet in flights_df.
Verwende die Methode createOrReplaceTempView, um die Tabelle flights zu verfremden.
Führe eine Spark SQL-Abfrage gegen die Tabelle flights aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)

Code bearbeiten und ausführen