CommencerCommencer gratuitement

SQL et Parquet

Les fichiers Parquet sont parfaits comme source de données pour des requêtes SQL dans Spark. Bien qu’il soit possible d’exécuter les mêmes requêtes directement via les fonctions Python de Spark, il est parfois plus simple d’utiliser des requêtes SQL en parallèle des options Python.

Dans cet exemple, nous allons lire le fichier Parquet créé dans l’exercice précédent et l’enregistrer comme table SQL. Une fois enregistrée, nous exécuterons une requête rapide sur cette table (c’est-à-dire sur le fichier Parquet).

L’objet spark et le fichier AA_DFW_ALL.parquet sont déjà à votre disposition.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Importez le fichier AA_DFW_ALL.parquet dans flights_df.
  • Utilisez la méthode createOrReplaceTempView pour créer un alias de la table flights.
  • Exécutez une requête Spark SQL sur la table flights.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)
Modifier et exécuter le code