LoslegenKostenlos loslegen

SQL und Parquet

Parquet-Dateien eignen sich perfekt als Datenspeicher für SQL-Abfragen in Spark. Zwar lassen sich dieselben Abfragen auch direkt über die Python-Funktionen von Spark ausführen, aber manchmal ist es einfacher, SQL-Abfragen parallel zu den Python-Optionen zu nutzen.

In diesem Beispiel lesen wir die Parquet-Datei ein, die wir in der letzten Übung erstellt haben, und registrieren sie als SQL-Tabelle. Sobald sie registriert ist, führen wir eine kurze Abfrage auf der Tabelle (also der Parquet-Datei) aus.

Das spark-Objekt und die Datei AA_DFW_ALL.parquet stehen dir automatisch zur Verfügung.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Datei AA_DFW_ALL.parquet in flights_df.
  • Verwende die Methode createOrReplaceTempView, um die Tabelle flights als Alias zu registrieren.
  • Führe eine Spark-SQL-Abfrage auf der Tabelle flights aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)
Code bearbeiten und ausführen