Joindre des tables
Les tables dans les bases de données relationnelles possèdent généralement des colonnes clés avec des identifiants uniques. Cela nous permet de créer des pipelines qui combinent des tables grâce à l’opération JOIN de SQL, plutôt que de devoir fusionner les données après leur import.
Les enregistrements de hpd311calls concernent souvent des problèmes — fuites, chauffage — aggravés par les conditions météo. Dans cet exercice, vous allez joindre les données weather aux enregistrements d’appels en utilisant leurs colonnes de date communes, afin d’obtenir toutes les informations dans un seul dataframe. Vous pouvez supposer que ces colonnes ont le même type de données.
pandas est importé sous le nom pd, et le moteur de base de données engine a été créé.
Remarque : Le vérificateur SQL est exigeant sur l’ordre des tables dans la jointure — il s’attend à des tables spécifiques à gauche et à droite.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Complétez la requête pour joindre
weatheràhpd311callsvia leurs colonnesdateetcreated_date, respectivement. - Interrogez la base et affectez le dataframe obtenu à
calls_with_weather. - Affichez les premières lignes de
calls_with_weatherpour confirmer que toutes les colonnes ont été jointes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Query to join weather to call records by date columns
query = """
SELECT *
FROM hpd311calls
JOIN ____
ON hpd311calls.____ = ____.____;
"""
# Create dataframe of joined tables
calls_with_weather = ____
# View the dataframe to make sure all columns were joined
____