Aan de slagGa gratis aan de slag

SQL en Parquet

Parquet-bestanden zijn ideaal als onderliggende gegevensopslag voor SQL-query’s in Spark. Hoewel je dezelfde queries ook rechtstreeks via de Python-functies van Spark kunt uitvoeren, is het soms makkelijker om SQL-query’s naast de Python-opties te draaien.

In dit voorbeeld lezen we het Parquet-bestand in dat we in de vorige oefening hebben gemaakt en registreren we het als een SQL-tabel. Zodra het geregistreerd is, voeren we een snelle query uit op de tabel (oftewel, het Parquet-bestand).

Het spark-object en het bestand AA_DFW_ALL.parquet zijn automatisch voor je beschikbaar.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer het bestand AA_DFW_ALL.parquet in flights_df.
  • Gebruik de methode createOrReplaceTempView om de tabel flights te aliassen.
  • Voer een Spark SQL-query uit op de tabel flights.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)
Code bewerken en uitvoeren