Wyszukiwanie duplikatów

Nowa aktualizacja potoku danych zasilającego ride_sharing dodała kolumnę ride_id, która stanowi unikalny identyfikator każdego przejazdu.

Aktualizacja zbiegła się jednak ze znacznie krótszymi średnimi czasami przejazdów oraz nieprawidłowymi datami urodzenia użytkowników ustawionymi w przyszłości. Co ważniejsze, liczba zarejestrowanych przejazdów wzrosła o 20% z dnia na dzień – to skłania do podejrzeń, że w ramce danych ride_sharing mogą znajdować się zarówno kompletne, jak i niekompletne duplikaty.

W tym ćwiczeniu potwierdzisz te podejrzenia, wyszukując owe duplikaty. W środowisku masz dostęp do próbki zbioru ride_sharing oraz wszystkich pakietów, z których korzystałeś do tej pory.

Znajdź zduplikowane wiersze kolumny ride_id w ramce danych ride_sharing, ustawiając parametr keep na False.
Odfiltruj ramkę ride_sharing na podstawie duplicates, posortuj wyniki według ride_id i zapisz je do zmiennej duplicated_rides.
Wyświetl kolumny ride_id, duration oraz user_birth_year z ramki duplicated_rides w tej kolejności.

ćwiczenie

Wyszukiwanie duplikatów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie