SQL et Parquet
Les fichiers Parquet sont parfaits comme source de données pour des requêtes SQL dans Spark. Bien qu’il soit possible d’exécuter les mêmes requêtes directement via les fonctions Python de Spark, il est parfois plus simple d’utiliser des requêtes SQL en parallèle des options Python.
Dans cet exemple, nous allons lire le fichier Parquet créé dans l’exercice précédent et l’enregistrer comme table SQL. Une fois enregistrée, nous exécuterons une requête rapide sur cette table (c’est-à-dire sur le fichier Parquet).
L’objet spark et le fichier AA_DFW_ALL.parquet sont déjà à votre disposition.
Cet exercice fait partie du cours
<cours>Nettoyer des données avec PySpark</cours>Instructions de l’exercice
- Importez le fichier
AA_DFW_ALL.parquetdansflights_df. - Utilisez la méthode
createOrReplaceTempViewpour créer un alias de la tableflights. - Exécutez une requête Spark SQL sur la table
flights.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)