IniziaInizia gratis

Aggregare duplicati parziali

Un altro modo per gestire i duplicati parziali è calcolare una statistica di sintesi dei valori che differiscono tra i duplicati parziali, come media, mediana, massimo o minimo. Questo può tornare utile quando non sai come sono stati raccolti i dati e vuoi una media, oppure se, in base alla conoscenza del dominio, preferisci avere una stima troppo alta piuttosto che troppo bassa (o viceversa).

dplyr è caricato e bike_share_rides è disponibile.

Questo esercizio fa parte del corso

Pulizia dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

  • Raggruppa bike_share_rides per ride_id e date.
  • Aggiungi una colonna chiamata duration_min_avg che contenga la durata media del ride per il ride_id e la date della riga.
  • Rimuovi i duplicati in base a ride_id e date, mantenendo tutte le colonne del data frame.
  • Rimuovi la colonna duration_min.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Modifica ed esegui il codice