Usuwanie duplikatów

W poprzednim ćwiczeniu udało się potwierdzić, że nowa aktualizacja zasilająca ride_sharing zawiera błąd generujący zarówno kompletne, jak i niekompletne zduplikowane wiersze dla niektórych wartości kolumny ride_id – z okazjonalnymi rozbieżnościami w kolumnach user_birth_year i duration.

W tym ćwiczeniu zajmiesz się tymi zduplikowanymi wierszami: najpierw usuniesz kompletne duplikaty, a następnie scalisz niekompletne duplikaty w jeden wiersz, zachowując średnią wartość duration oraz minimalną wartość user_birth_year dla każdego zestawu niekompletnych duplikatów.

Usuń kompletne duplikaty ze zbioru ride_sharing i zapisz wyniki w zmiennej ride_dup.
Utwórz słownik statistics, który przechowuje agregację minimalną dla user_birth_year oraz agregację mean dla duration.
Usuń niekompletne duplikaty, grupując dane według ride_id i stosując agregację zdefiniowaną w statistics.
Znajdź ponownie duplikaty i uruchom instrukcję assert, aby zweryfikować usunięcie duplikatów.

ćwiczenie

Usuwanie duplikatów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie