Aggregare duplicati parziali
Un altro modo per gestire i duplicati parziali è calcolare una statistica di sintesi dei valori che differiscono tra i duplicati parziali, come media, mediana, massimo o minimo. Questo può tornare utile quando non sai come sono stati raccolti i dati e vuoi una media, oppure se, in base alla conoscenza del dominio, preferisci avere una stima troppo alta piuttosto che troppo bassa (o viceversa).
dplyr è caricato e bike_share_rides è disponibile.
Questo esercizio fa parte del corso
Pulizia dei dati in R
Istruzioni dell'esercizio
- Raggruppa
bike_share_ridesperride_idedate. - Aggiungi una colonna chiamata
duration_min_avgche contenga la durata media del ride per ilride_ide ladatedella riga. - Rimuovi i duplicati in base a
ride_idedate, mantenendo tutte le colonne del data frame. - Rimuovi la colonna
duration_min.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)