1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v R

Connected

cvičení

Agregace částečných duplikátů

Dalším způsobem, jak pracovat s částečnými duplikáty, je vypočítat souhrnnou statistiku hodnot, které se mezi nimi liší – například průměr, medián, maximum nebo minimum. To se hodí, když si nejsi jistý/jistá, jak byla data sbírána a chceš pracovat s průměrem, nebo když na základě znalosti domény preferuješ spíše nadhodnocený než podhodnocený odhad (nebo naopak).

dplyr je načtený a bike_share_rides je k dispozici.

Pokyny

100 XP
  • Seskup bike_share_rides podle ride_id a date.
  • Přidej sloupec duration_min_avg, který bude obsahovat průměrnou délku jízdy pro dané ride_id a date.
  • Odstraň duplikáty na základě ride_id a date a zachovej všechny sloupce datového rámce.
  • Odstraň sloupec duration_min.