SQL in een notendop
Als je verdergaat, is het handig om een basisbegrip van SQL te hebben. Een meer diepgaande uitleg vind je hier.
Een SQL-query geeft een tabel terug die is afgeleid van een of meer tabellen in een database.
Elke SQL-query bestaat uit commando's die de database vertellen wat je met de gegevens wilt doen. De twee commando's die elke query moet bevatten zijn SELECT en FROM.
Na het commando SELECT volgen de kolommen die je in de resultaatset wilt hebben.
Na het commando FROM volgt de naam van de tabel die die kolommen bevat. De minimale SQL-query is:
SELECT * FROM my_table;
De * selecteert alle kolommen, dus dit geeft de volledige tabel met de naam my_table terug.
Net als met .withColumn() kun je kolomgewijze berekeningen doen binnen een SELECT-instructie. Bijvoorbeeld,
SELECT origin, dest, air_time / 60 FROM flights;
geeft een tabel terug met de herkomst, bestemming en duur in uren voor elke vlucht.
Een ander veelgebruikt commando is WHERE. Dit commando filtert de rijen van de tabel op basis van een logische voorwaarde die je opgeeft. De resulterende tabel bevat de rijen waarvoor je voorwaarde waar is. Bijvoorbeeld, als je een tabel met studenten en cijfers had, kun je:
SELECT * FROM students
WHERE grade = 'A';
gebruiken om alle kolommen en de rijen te selecteren met informatie over studenten die een A hebben gehaald.
Welke van de volgende queries geeft een tabel terug met staartnummers en bestemmingen voor vluchten die langer dan 10 uur duurden?
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen