SQL et Parquet

Les fichiers Parquet sont parfaits en tant que magasin de données de secours pour les requêtes SQL dans Spark. Bien qu'il soit possible d'exécuter les mêmes requêtes directement via les fonctions Python de Spark, il est parfois plus facile d'exécuter des requêtes SQL parallèlement aux options Python.

Pour cet exemple, nous allons lire le fichier Parquet que nous avons créé dans le dernier exercice et l'enregistrer en tant que tableau SQL. Une fois enregistré, nous allons lancer une requête rapide sur le tableau (c'est-à-dire le fichier Parquet).

L'objet spark et le fichier AA_DFW_ALL.parquet sont automatiquement mis à votre disposition.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

Importez le fichier AA_DFW_ALL.parquet dans flights_df.
Utilisez la méthode createOrReplaceTempView pour créer un alias dans le tableau flights.
Exécutez une requête SQL Spark sur le tableau flights.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)

Modifier et exécuter le code