SQL et Parquet
Les fichiers Parquet sont parfaits comme source de données pour des requêtes SQL dans Spark. Bien qu’il soit possible d’exécuter les mêmes requêtes directement via les fonctions Python de Spark, il est parfois plus simple d’utiliser des requêtes SQL en parallèle des options Python.
Dans cet exemple, nous allons lire le fichier Parquet créé dans l’exercice précédent et l’enregistrer comme table SQL. Une fois enregistrée, nous exécuterons une requête rapide sur cette table (c’est-à-dire sur le fichier Parquet).
L’objet spark et le fichier AA_DFW_ALL.parquet sont déjà à votre disposition.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Importez le fichier
AA_DFW_ALL.parquetdansflights_df. - Utilisez la méthode
createOrReplaceTempViewpour créer un alias de la tableflights. - Exécutez une requête Spark SQL sur la table
flights.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)