Aan de slagBegin gratis

Gedeeltelijke duplicaten aggregeren

Een andere manier om met gedeeltelijke duplicaten om te gaan, is het berekenen van een samenvattende statistiek van de waarden die verschillen tussen de gedeeltelijke duplicaten, zoals het gemiddelde, de mediaan, de maximum- of minimumwaarde. Dit is handig als je niet zeker weet hoe je data is verzameld en je een gemiddelde wilt, of als je op basis van domeinkennis liever een te hoge schatting hebt dan een te lage (of andersom).

dplyr is geladen en bike_share_rides is beschikbaar.

Deze oefening maakt deel uit van de cursus

Data opschonen in R

Bekijk cursus

Oefeninstructies

  • Groepeer bike_share_rides op ride_id en date.
  • Voeg een kolom toe met de naam duration_min_avg die de gemiddelde ritduur bevat voor de ride_id en date van de rij.
  • Verwijder duplicaten op basis van ride_id en date, waarbij je alle kolommen van de data frame behoudt.
  • Verwijder de kolom duration_min.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Code bewerken en uitvoeren