Unieke waarden ophalen

Soms heeft een analyse niet elk record nodig, maar juist unieke waarden in één of meer kolommen. Dubbele waarden kun je verwijderen nadat je de data in een dataframe hebt geladen, maar het kan ook al bij het importeren met het SQL-trefwoord DISTINCT.

Omdat hpd311calls gegevens over woonproblemen bevat, verwachten we dat de meeste records een stadsdeel (borough) hebben. Laten we die aanname testen door te zoeken naar unieke combinaties van complaint_type/borough.

pandas is geïmporteerd als pd, en de database-engine is aangemaakt als engine.

Opmerking: De SQL-checker is vrij strikt over kolomposities en verwacht dat velden in de opgegeven volgorde worden geselecteerd.

Deze oefening maakt deel uit van de cursus

Gestroomlijnde data-inname met pandas

Bekijk cursus

Oefeninstructies

Maak een query die DISTINCT waarden ophaalt voor borough en complaint_type (in die volgorde) uit hpd311calls.
Gebruik read_sql() om de resultaten van de query in te lezen in een dataframe, issues_and_boros.
Print de dataframe om te controleren of de aanname klopt dat alle issues behalve verzoeken om literatuur met een vermeld stadsdeel verschijnen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____, 
       ____
  ____ hpd311calls;
"""

# Load results of query to a dataframe
issues_and_boros = ____

# Check assumption about issues and boroughs
print(____)

Code bewerken en uitvoeren