Obtenir des valeurs distinctes
Parfois, une analyse n’a pas besoin de chaque enregistrement, mais plutôt des valeurs uniques d’une ou plusieurs colonnes. Les doublons peuvent être supprimés après le chargement des données dans un dataframe, mais on peut aussi le faire à l’import grâce au mot-clé SQL DISTINCT.
Comme hpd311calls contient des données sur les problèmes de logement, on s’attend à ce que la plupart des enregistrements aient un arrondissement (borough) renseigné. Vérifions cette hypothèse en interrogeant les combinaisons uniques complaint_type/borough.
pandas a été importé sous le nom pd, et le moteur de base de données a été créé sous le nom engine.
Remarque : Le vérificateur SQL est très pointilleux sur l’ordre des colonnes et s’attend à ce que les champs soient sélectionnés dans l’ordre indiqué.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Rédigez une requête qui récupère les valeurs
DISTINCTpourboroughetcomplaint_type(dans cet ordre) depuishpd311calls. - Utilisez
read_sql()pour charger les résultats de la requête dans un dataframe,issues_and_boros. - Affichez le dataframe pour vérifier l’hypothèse selon laquelle tous les problèmes, à l’exception des demandes de documentation, apparaissent avec un borough renseigné.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____,
____
____ hpd311calls;
"""
# Load results of query to a dataframe
issues_and_boros = ____
# Check assumption about issues and boroughs
print(____)