1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Śledź pieniądze

W tym ćwiczeniu pracujesz z kolejną wersją ramki danych banking, która zawiera brakujące wartości zarówno w kolumnie cust_id, jak i acct_amount.

Chcesz przeanalizować m.in. liczbę unikalnych klientów banku oraz średnią kwotę na kontach. Wiesz, że wiersze z brakującym cust_id są bezużyteczne dla analizy, a średnio acct_amount wynosi zwykle 5-krotność inv_amount.

W tym ćwiczeniu usuniesz wiersze z banking z brakującymi wartościami cust_id, a brakujące wartości acct_amount uzupełnisz na podstawie wiedzy dziedzinowej.

Instrukcje

100 XP
  • Użyj .dropna(), aby usunąć brakujące wartości z kolumny cust_id w ramce banking, i zapisz wyniki w zmiennej banking_fullid.
  • Wykorzystaj inv_amount do obliczenia szacowanych sald kont dla banking_fullid, ustawiając je jako inv_amount * 5, i przypisz wyniki do zmiennej acct_imp.
  • Uzupełnij brakujące wartości acct_amount w banking_fullid za pomocą nowo utworzonej zmiennej acct_imp, korzystając z metody .fillna().