Eindeutige Werte ermitteln
Manchmal braucht eine Analyse nicht jeden einzelnen Datensatz, sondern nur eindeutige Werte in einer oder mehreren Spalten. Doppelte Werte lassen sich nach dem Laden in ein DataFrame entfernen, es geht aber auch schon beim Import mit dem SQL-Schlüsselwort DISTINCT.
Da hpd311calls Daten zu Wohnungsproblemen enthält, erwarten wir, dass in den meisten Datensätzen ein Borough angegeben ist. Lass uns diese Annahme testen, indem wir eindeutige Kombinationen aus complaint_type und borough abfragen.
pandas wurde als pd importiert und die Datenbank-Engine als engine erstellt.
Hinweis: Der SQL-Checker ist bei der Spaltenreihenfolge sehr pingelig und erwartet Felder in der angegebenen Reihenfolge.
Diese Übung ist Teil des Kurses
Vereinfachte Datenaufnahme mit pandas
Anleitung zur Übung
- Erstelle eine Abfrage, die
DISTINCT-Werte fürboroughundcomplaint_type(in dieser Reihenfolge) aushpd311callsholt. - Verwende
read_sql(), um die Ergebnisse der Abfrage in ein DataFrameissues_and_boroszu laden. - Gib das DataFrame aus, um zu prüfen, ob die Annahme stimmt, dass alle Probleme außer Literature Requests mit angegebenem Borough erscheinen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____,
____
____ hpd311calls;
"""
# Load results of query to a dataframe
issues_and_boros = ____
# Check assumption about issues and boroughs
print(____)