SQL et Parquet
Les fichiers Parquet sont parfaits en tant que magasin de données de secours pour les requêtes SQL dans Spark. Bien qu'il soit possible d'exécuter les mêmes requêtes directement via les fonctions Python de Spark, il est parfois plus facile d'exécuter des requêtes SQL parallèlement aux options Python.
Pour cet exemple, nous allons lire le fichier Parquet que nous avons créé dans le dernier exercice et l'enregistrer en tant que tableau SQL. Une fois enregistré, nous allons lancer une requête rapide sur le tableau (c'est-à-dire le fichier Parquet).
L'objet spark
et le fichier AA_DFW_ALL.parquet
sont automatiquement mis à votre disposition.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Importez le fichier
AA_DFW_ALL.parquet
dansflights_df
. - Utilisez la méthode
createOrReplaceTempView
pour créer un alias dans le tableauflights
. - Exécutez une requête SQL Spark sur le tableau
flights
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)