Obtenir des valeurs distinctes

Parfois, une analyse n’a pas besoin de chaque enregistrement, mais plutôt des valeurs uniques d’une ou plusieurs colonnes. Les doublons peuvent être supprimés après le chargement des données dans un dataframe, mais on peut aussi le faire à l’import grâce au mot-clé SQL DISTINCT.

Comme hpd311calls contient des données sur les problèmes de logement, on s’attend à ce que la plupart des enregistrements aient un arrondissement (borough) renseigné. Vérifions cette hypothèse en interrogeant les combinaisons uniques complaint_type/borough.

pandas a été importé sous le nom pd, et le moteur de base de données a été créé sous le nom engine.

Remarque : Le vérificateur SQL est très pointilleux sur l’ordre des colonnes et s’attend à ce que les champs soient sélectionnés dans l’ordre indiqué.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Instructions de l’exercice

Rédigez une requête qui récupère les valeurs DISTINCT pour borough et complaint_type (dans cet ordre) depuis hpd311calls.
Utilisez read_sql() pour charger les résultats de la requête dans un dataframe, issues_and_boros.
Affichez le dataframe pour vérifier l’hypothèse selon laquelle tous les problèmes, à l’exception des demandes de documentation, apparaissent avec un borough renseigné.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____, 
       ____
  ____ hpd311calls;
"""

# Load results of query to a dataframe
issues_and_boros = ____

# Check assumption about issues and boroughs
print(____)

Modifier et exécuter le code