Tabellen joinen
Tabellen in relationalen Datenbanken haben normalerweise Schlüsselspalten mit eindeutigen Datensatz-IDs. So können wir Pipelines bauen, die Tabellen mit dem SQL-JOIN-Operator kombinieren, statt die Daten erst nach dem Import zusammenzuführen.
Die Einträge in hpd311calls betreffen häufig Probleme – wie Lecks oder Heizungsstörungen –, die sich durch Wetterbedingungen verschlimmern. In dieser Übung joinst du weather-Daten an die Anrufe über die gemeinsamen Datumsspalten, um alles in einem DataFrame zu haben. Du kannst davon ausgehen, dass diese Spalten den gleichen Datentyp haben.
pandas ist als pd geladen, und die Datenbank-Engine engine wurde erstellt.
Hinweis: Der SQL-Checker ist wählerisch bei der Reihenfolge der Join-Tabellen – er erwartet bestimmte Tabellen links bzw. rechts.
Diese Übung ist Teil des Kurses
Vereinfachte Datenaufnahme mit pandas
Anleitung zur Übung
- Vervollständige die Abfrage, um
weatherbzw.hpd311callsüber ihre Spaltendateundcreated_datezu joinen. - Frage die Datenbank ab und weise den resultierenden DataFrame
calls_with_weatherzu. - Gib die ersten Zeilen von
calls_with_weatheraus, um zu bestätigen, dass alle Spalten gejoint wurden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Query to join weather to call records by date columns
query = """
SELECT *
FROM hpd311calls
JOIN ____
ON hpd311calls.____ = ____.____;
"""
# Create dataframe of joined tables
calls_with_weather = ____
# View the dataframe to make sure all columns were joined
____