1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Jak wygląda integralność danych?

Do ramki danych banking zostały dołączone nowe dane zawierające szczegóły dotyczące alokacji inwestycji z kolumny inv_amount w czterech funduszach: A, B, C i D.

Ponadto wiek i daty urodzenia klientów są teraz przechowywane odpowiednio w kolumnach age i birth_date.

Chcesz zrozumieć, jak klienci w różnych grupach wiekowych inwestują. Najpierw jednak upewnij się, że analizowane dane są poprawne. W tym celu przeprowadź walidację krzyżową wartości w kolumnach inv_amount i age – sprawdź je odpowiednio względem kwot zainwestowanych w poszczególnych funduszach oraz dat urodzenia klientów. Biblioteki pandas i datetime zostały już zaimportowane jako pd i dt.

Instrukcje 1/2

undefined XP
  • 1
    • Znajdź wiersze, w których suma wartości kolumn z fund_columns w ramce banking jest równa wartości w kolumnie inv_amount.
    • Zapisz wiersze ramki banking ze spójnymi wartościami inv_amount w zmiennej consistent_inv, a te z niespójnymi – w zmiennej inconsistent_inv.
  • 2
    • Zapisz dzisiejszą datę w zmiennej today, a następnie ręcznie oblicz wiek klientów i zapisz wyniki w zmiennej ages_manual.
    • Znajdź wszystkie wiersze ramki banking, w których kolumna age jest równa ages_manual, a następnie przefiltruj ramkę banking do zmiennych consistent_ages i inconsistent_ages.