Gedeeltelijke duplicaten aggregeren
Een andere manier om met gedeeltelijke duplicaten om te gaan, is het berekenen van een samenvattende statistiek van de waarden die verschillen tussen de gedeeltelijke duplicaten, zoals het gemiddelde, de mediaan, de maximum- of minimumwaarde. Dit is handig als je niet zeker weet hoe je data is verzameld en je een gemiddelde wilt, of als je op basis van domeinkennis liever een te hoge schatting hebt dan een te lage (of andersom).
dplyr is geladen en bike_share_rides is beschikbaar.
Deze oefening maakt deel uit van de cursus
Data opschonen in R
Oefeninstructies
- Groepeer
bike_share_ridesopride_idendate. - Voeg een kolom toe met de naam
duration_min_avgdie de gemiddelde ritduur bevat voor deride_idendatevan de rij. - Verwijder duplicaten op basis van
ride_idendate, waarbij je alle kolommen van de data frame behoudt. - Verwijder de kolom
duration_min.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)