1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Streamlined Data Ingestion with pandas

Connected

cvičení

Získání unikátních hodnot

Někdy analýza nevyžaduje všechny záznamy, ale pouze unikátní hodnoty v jednom nebo více sloupcích. Duplicitní hodnoty lze odstranit po načtení dat do dataframe, ale dá se to vyřešit i přímo při importu pomocí klíčového slova DISTINCT v SQL.

Protože hpd311calls obsahuje data o problémech s bydlením, očekáváme, že u většiny záznamů bude uvedena čtvrť (borough). Ověřme tento předpoklad dotazem na unikátní kombinace complaint_type a borough.

pandas je importován jako pd a databázový engine je dostupný jako engine.

Poznámka: SQL kontroler je poměrně přísný ohledně pořadí sloupců a očekává, že pole budou vybrána v uvedeném pořadí.

Pokyny

100 XP
  • Vytvoř dotaz, který z tabulky hpd311calls načte hodnoty DISTINCT pro borough a complaint_type (v tomto pořadí).
  • Pomocí read_sql() načti výsledky dotazu do dataframe issues_and_boros.
  • Vypiš dataframe a ověř, zda platí předpoklad, že všechny problémy kromě žádostí o literaturu mají uvedenou čtvrť.