1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w R

Connected

ćwiczenie

Pełne duplikaty

Otrzymano informację, że potok danych dotyczących współdzielenia rowerów został zaktualizowany w celu zwiększenia wydajności, ale w wyniku tej zmiany częściej mogą pojawiać się duplikaty. Aby móc nadal korzystać z tych samych skryptów do cotygodniowych analiz statystyk przejazdów, trzeba najpierw upewnić się, że wszystkie duplikaty w zbiorze danych zostaną usunięte.

Gdy wiele wierszy ramki danych ma takie same wartości we wszystkich kolumnach, mówimy o pełnych duplikatach. Usuwanie takich duplikatów jest ważne – te same wartości powtórzone wielokrotnie mogą zaburzać statystyki podsumowujące, takie jak średnia czy mediana. Każdy przejazd, łącznie z ride_id, powinien być unikalny.

Pakiet dplyr jest załadowany, a zbiór danych bike_share_rides jest dostępny.

Instrukcje

100 XP
  • Oblicz całkowitą liczbę pełnych duplikatów w zbiorze bike_share_rides.
  • Usuń wszystkie pełne duplikaty ze zbioru bike_share_rides i zapisz nową ramkę danych jako bike_share_rides_unique.
  • Oblicz całkowitą liczbę pełnych duplikatów w nowej ramce danych bike_share_rides_unique.