1. Nauka
  2. /
  3. Kursy
  4. /
  5. Sprawne importowanie danych z pandas

Connected

ćwiczenie

Pobieranie unikalnych wartości

Czasem w analizie nie są potrzebne wszystkie rekordy, lecz jedynie unikalne wartości z jednej lub kilku kolumn. Duplikaty można usunąć po załadowaniu danych do dataframe'u, ale można też zrobić to już na etapie importu – za pomocą słowa kluczowego DISTINCT w SQL.

Ponieważ hpd311calls zawiera dane dotyczące problemów mieszkaniowych, można się spodziewać, że większość rekordów ma przypisaną dzielnicę. Sprawdźmy to założenie, pobierając unikalne kombinacje kolumn complaint_type i borough.

pandas został zaimportowany jako pd, a silnik bazy danych jest dostępny jako engine.

Uwaga: Weryfikator SQL jest dość rygorystyczny w kwestii kolejności kolumn i oczekuje, że pola będą wybierane w podanej kolejności.

Instrukcje

100 XP
  • Napisz zapytanie, które pobiera wartości DISTINCT dla kolumn borough i complaint_type (w tej kolejności) z tabeli hpd311calls.
  • Użyj read_sql(), aby załadować wyniki zapytania do dataframe'u issues_and_boros.
  • Wyświetl dataframe i sprawdź, czy założenie – że wszystkie zgłoszenia poza wnioskami o literaturę mają przypisaną dzielnicę – jest słuszne.