1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Usuwanie duplikatów

W poprzednim ćwiczeniu udało się potwierdzić, że nowa aktualizacja zasilająca ride_sharing zawiera błąd generujący zarówno kompletne, jak i niekompletne zduplikowane wiersze dla niektórych wartości kolumny ride_id – z okazjonalnymi rozbieżnościami w kolumnach user_birth_year i duration.

W tym ćwiczeniu zajmiesz się tymi zduplikowanymi wierszami: najpierw usuniesz kompletne duplikaty, a następnie scalisz niekompletne duplikaty w jeden wiersz, zachowując średnią wartość duration oraz minimalną wartość user_birth_year dla każdego zestawu niekompletnych duplikatów.

Instrukcje

100 XP
  • Usuń kompletne duplikaty ze zbioru ride_sharing i zapisz wyniki w zmiennej ride_dup.
  • Utwórz słownik statistics, który przechowuje agregację minimalną dla user_birth_year oraz agregację mean dla duration.
  • Usuń niekompletne duplikaty, grupując dane według ride_id i stosując agregację zdefiniowaną w statistics.
  • Znajdź ponownie duplikaty i uruchom instrukcję assert, aby zweryfikować usunięcie duplikatów.