Tabellen joinen
Tabellen in relationele databases hebben meestal sleutelkolommen met unieke record-id's. Hierdoor kunnen we pijplijnen bouwen die tabellen combineren met de JOIN-bewerking van SQL, in plaats van data pas na het importeren te hoeven samenvoegen.
De records in hpd311calls gaan vaak over problemen, zoals lekkages of verwarmingsproblemen, die verergeren door weersomstandigheden. In deze oefening join je weather-gegevens aan de belrecords via hun gemeenschappelijke datumkolommen, zodat alles in één dataframe zit. Je mag aannemen dat deze kolommen hetzelfde gegevenstype hebben.
pandas is geladen als pd, en de database-engine, engine, is aangemaakt.
Opmerking: De SQL-checker is kieskeurig over de volgorde van de join-tabellen — hij verwacht specifieke tabellen links en rechts.
Deze oefening maakt deel uit van de cursus
Gestroomlijnde data-inname met pandas
Oefeninstructies
- Maak de query af om
weatherte joinen methpd311callsop respectievelijk hundate- encreated_date-kolommen. - Query de database en sla het resulterende dataframe op in
calls_with_weather. - Print de eerste paar rijen van
calls_with_weatherom te controleren dat alle kolommen zijn gejoint.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Query to join weather to call records by date columns
query = """
SELECT *
FROM hpd311calls
JOIN ____
ON hpd311calls.____ = ____.____;
"""
# Create dataframe of joined tables
calls_with_weather = ____
# View the dataframe to make sure all columns were joined
____