SQL en bref
Au fur et à mesure que vous avancez, il vous sera utile d'avoir une connaissance de base de SQL. Une analyse plus approfondie est disponible ici.
Une requête SQL renvoie un tableau dérivé d'un ou plusieurs tableaux contenus dans une base de données.
Chaque requête SQL est composée de commandes qui indiquent à la base de données ce que vous voulez faire avec les données. Les deux commandes que toute requête doit contenir sont SELECT
et FROM
.
La commande SELECT
est suivie des colonnes que vous souhaitez voir figurer dans le tableau résultant.
La commande FROM
est suivie du nom du tableau qui contient ces colonnes. La requête minimale SQL est la suivante :
SELECT * FROM my_table;
L'option *
sélectionne toutes les colonnes, ce qui permet d'obtenir le tableau entier nommé my_table
.
Comme pour .withColumn()
, vous pouvez effectuer des calculs par colonne dans une instruction SELECT
. Par exemple :
SELECT origin, dest, air_time / 60 FROM flights;
renvoie un tableau contenant l'origine, la destination et la durée en heures de chaque vol.
Une autre commande couramment utilisée est WHERE
. Cette commande permet de filtrer les tableaux en fonction d'une condition logique que vous spécifiez. Le tableau qui en résulte contient les tableaux où votre condition est vraie. Par exemple, si vous avez un tableau d'étudiants et de notes, vous pouvez faire :
SELECT * FROM students
WHERE grade = 'A';
pour sélectionner toutes les colonnes et les lignes contenant des informations sur les étudiants qui ont obtenu la mention "A".
Laquelle des requêtes suivantes renvoie un tableau contenant les numéros de queue et les destinations des vols ayant duré plus de 10 heures ?
Cet exercice fait partie du cours
Introduction à PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
