Eindeutige Werte ermitteln

Manchmal braucht eine Analyse nicht jeden einzelnen Datensatz, sondern nur eindeutige Werte in einer oder mehreren Spalten. Doppelte Werte lassen sich nach dem Laden in ein DataFrame entfernen, es geht aber auch schon beim Import mit dem SQL-Schlüsselwort DISTINCT.

Da hpd311calls Daten zu Wohnungsproblemen enthält, erwarten wir, dass in den meisten Datensätzen ein Borough angegeben ist. Lass uns diese Annahme testen, indem wir eindeutige Kombinationen aus complaint_type und borough abfragen.

pandas wurde als pd importiert und die Datenbank-Engine als engine erstellt.

Hinweis: Der SQL-Checker ist bei der Spaltenreihenfolge sehr pingelig und erwartet Felder in der angegebenen Reihenfolge.

Diese Übung ist Teil des Kurses

<Kurs>Vereinfachte Datenaufnahme mit pandas</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle eine Abfrage, die DISTINCT-Werte für borough und complaint_type (in dieser Reihenfolge) aus hpd311calls holt.
Verwende read_sql(), um die Ergebnisse der Abfrage in ein DataFrame issues_and_boros zu laden.
Gib das DataFrame aus, um zu prüfen, ob die Annahme stimmt, dass alle Probleme außer Literature Requests mit angegebenem Borough erscheinen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____, 
       ____
  ____ hpd311calls;
"""

# Load results of query to a dataframe
issues_and_boros = ____

# Check assumption about issues and boroughs
print(____)

Code bearbeiten und ausführen