Correggere le incoerenze
Ora che hai identificato che dest_size ha incoerenze negli spazi e cleanliness ha incoerenze nelle maiuscole/minuscole, userai i nuovi strumenti a tua disposizione per correggere i valori incoerenti in sfo_survey invece di rimuovere del tutto i punti dati, cosa che potrebbe introdurre bias nel tuo insieme di dati se più del 5% dei punti deve essere eliminato.
dplyr e stringr sono già caricati e sfo_survey è disponibile.
Questo esercizio fa parte del corso
Pulizia dei dati in R
Istruzioni dell'esercizio
- Aggiungi a
sfo_surveyuna colonna chiamatadest_size_trimmedche contenga i valori della colonnadest_sizecon tutti gli spazi iniziali e finali rimossi. - Aggiungi un'altra colonna chiamata
cleanliness_lowerche contenga i valori della colonnacleanlinessconvertiti tutti in minuscolo. - Conta il numero di occorrenze di ciascuna categoria in
dest_size_trimmed. - Conta il numero di occorrenze di ciascuna categoria in
cleanliness_lower.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___