1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w R

Connected

ćwiczenie

Agregowanie częściowych duplikatów

Innym sposobem radzenia sobie z częściowymi duplikatami jest obliczenie statystyki podsumowującej dla wartości, które się między nimi różnią – na przykład średniej, mediany, maksimum lub minimum. Przydaje się to, gdy nie masz pewności, jak zostały zebrane dane i zależy ci na wartości uśrednionej, albo gdy – na podstawie wiedzy dziedzinowej – wolisz zawyżone szacunki niż zaniżone (lub odwrotnie).

Biblioteka dplyr jest załadowana, a zbiór danych bike_share_rides jest dostępny.

Instrukcje

100 XP
  • Zgrupuj zbiór danych bike_share_rides według kolumn ride_id i date.
  • Dodaj kolumnę o nazwie duration_min_avg, która będzie zawierać średni czas przejazdu dla danego ride_id i date.
  • Usuń duplikaty na podstawie kolumn ride_id i date, zachowując wszystkie kolumny ramki danych.
  • Usuń kolumnę duration_min.