Joinen
Een andere veelvoorkomende data-operatie is de join. Joins zijn op zichzelf al een heel onderwerp, dus in deze cursus kijken we alleen naar eenvoudige joins. Wil je meer leren over joins, kijk dan hier.
Een join combineert twee verschillende tabellen op basis van een kolom die ze delen. Deze kolom heet de sleutel (key). Voorbeelden van sleutels hier zijn de kolommen tailnum en carrier uit de flights-tabel.
Stel bijvoorbeeld dat je meer wilt weten over het vliegtuig dat een vlucht uitvoerde dan alleen het staartnummer. Deze informatie staat niet in de flights-tabel, omdat hetzelfde vliegtuig in de loop van twee jaar veel verschillende vluchten maakt. Als je die informatie in elke rij zou opnemen, krijg je veel duplicatie. Om dit te voorkomen heb je een tweede tabel met maar één rij per vliegtuig, met in de kolommen alle informatie over het vliegtuig, inclusief het staartnummer. Je zou deze tabel planes kunnen noemen.
Als je de flights-tabel joint met deze tabel met vliegtuiggegevens, voeg je alle kolommen uit de planes-tabel toe aan de flights-tabel. Om deze kolommen met informatie te vullen, kijk je naar het staartnummer uit de flights-tabel, zoek je de overeenkomende in de planes-tabel en gebruik je vervolgens die rij om alle nieuwe kolommen te vullen.
Nu heb je een veel grotere tabel dan eerst, maar nu heeft elke rij alle informatie over het vliegtuig dat die vlucht uitvoerde!
Welke van de volgende uitspraken is niet waar?
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen