Unieke waarden ophalen
Soms heeft een analyse niet elk record nodig, maar juist unieke waarden in één of meer kolommen. Dubbele waarden kun je verwijderen nadat je de data in een dataframe hebt geladen, maar het kan ook al bij het importeren met het SQL-trefwoord DISTINCT.
Omdat hpd311calls gegevens over woonproblemen bevat, verwachten we dat de meeste records een stadsdeel (borough) hebben. Laten we die aanname testen door te zoeken naar unieke combinaties van complaint_type/borough.
pandas is geïmporteerd als pd, en de database-engine is aangemaakt als engine.
Opmerking: De SQL-checker is vrij strikt over kolomposities en verwacht dat velden in de opgegeven volgorde worden geselecteerd.
Deze oefening maakt deel uit van de cursus
Gestroomlijnde data-inname met pandas
Oefeninstructies
- Maak een query die
DISTINCTwaarden ophaalt voorboroughencomplaint_type(in die volgorde) uithpd311calls. - Gebruik
read_sql()om de resultaten van de query in te lezen in een dataframe,issues_and_boros. - Print de dataframe om te controleren of de aanname klopt dat alle issues behalve verzoeken om literatuur met een vermeld stadsdeel verschijnen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____,
____
____ hpd311calls;
"""
# Load results of query to a dataframe
issues_and_boros = ____
# Check assumption about issues and boroughs
print(____)