Pełne duplikaty

Otrzymano informację, że potok danych dotyczących współdzielenia rowerów został zaktualizowany w celu zwiększenia wydajności, ale w wyniku tej zmiany częściej mogą pojawiać się duplikaty. Aby móc nadal korzystać z tych samych skryptów do cotygodniowych analiz statystyk przejazdów, trzeba najpierw upewnić się, że wszystkie duplikaty w zbiorze danych zostaną usunięte.

Gdy wiele wierszy ramki danych ma takie same wartości we wszystkich kolumnach, mówimy o pełnych duplikatach. Usuwanie takich duplikatów jest ważne – te same wartości powtórzone wielokrotnie mogą zaburzać statystyki podsumowujące, takie jak średnia czy mediana. Każdy przejazd, łącznie z ride_id, powinien być unikalny.

Pakiet dplyr jest załadowany, a zbiór danych bike_share_rides jest dostępny.

Oblicz całkowitą liczbę pełnych duplikatów w zbiorze bike_share_rides.
Usuń wszystkie pełne duplikaty ze zbioru bike_share_rides i zapisz nową ramkę danych jako bike_share_rides_unique.
Oblicz całkowitą liczbę pełnych duplikatów w nowej ramce danych bike_share_rides_unique.

ćwiczenie

Pełne duplikaty

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie