1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Wyszukiwanie duplikatów

Nowa aktualizacja potoku danych zasilającego ride_sharing dodała kolumnę ride_id, która stanowi unikalny identyfikator każdego przejazdu.

Aktualizacja zbiegła się jednak ze znacznie krótszymi średnimi czasami przejazdów oraz nieprawidłowymi datami urodzenia użytkowników ustawionymi w przyszłości. Co ważniejsze, liczba zarejestrowanych przejazdów wzrosła o 20% z dnia na dzień – to skłania do podejrzeń, że w ramce danych ride_sharing mogą znajdować się zarówno kompletne, jak i niekompletne duplikaty.

W tym ćwiczeniu potwierdzisz te podejrzenia, wyszukując owe duplikaty. W środowisku masz dostęp do próbki zbioru ride_sharing oraz wszystkich pakietów, z których korzystałeś do tej pory.

Instrukcje

100 XP
  • Znajdź zduplikowane wiersze kolumny ride_id w ramce danych ride_sharing, ustawiając parametr keep na False.
  • Odfiltruj ramkę ride_sharing na podstawie duplicates, posortuj wyniki według ride_id i zapisz je do zmiennej duplicated_rides.
  • Wyświetl kolumny ride_id, duration oraz user_birth_year z ramki duplicated_rides w tej kolejności.