SQL en Parquet
Parquet-bestanden zijn ideaal als onderliggende gegevensopslag voor SQL-query’s in Spark. Hoewel je dezelfde queries ook rechtstreeks via de Python-functies van Spark kunt uitvoeren, is het soms makkelijker om SQL-query’s naast de Python-opties te draaien.
In dit voorbeeld lezen we het Parquet-bestand in dat we in de vorige oefening hebben gemaakt en registreren we het als een SQL-tabel. Zodra het geregistreerd is, voeren we een snelle query uit op de tabel (oftewel, het Parquet-bestand).
Het spark-object en het bestand AA_DFW_ALL.parquet zijn automatisch voor je beschikbaar.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Importeer het bestand
AA_DFW_ALL.parquetinflights_df. - Gebruik de methode
createOrReplaceTempViewom de tabelflightste aliassen. - Voer een Spark SQL-query uit op de tabel
flights.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)