Inconsistenties corrigeren
Nu je hebt vastgesteld dat dest_size inconsistenties in witruimte heeft en cleanliness inconsistenties in hoofdletters, ga je de nieuwe tools gebruiken om de inconsistente waarden in sfo_survey te herstellen in plaats van de datapunten volledig te verwijderen. Dat zou namelijk bias kunnen toevoegen aan je gegevensset als meer dan 5% van de datapunten moet worden weggegooid.
dplyr en stringr zijn geladen en sfo_survey is beschikbaar.
Deze oefening maakt deel uit van de cursus
Data opschonen in R
Oefeninstructies
- Voeg een kolom toe aan
sfo_surveymet de naamdest_size_trimmeddie de waarden in de kolomdest_sizebevat, met alle spaties aan het begin en einde verwijderd. - Voeg nog een kolom toe met de naam
cleanliness_lowerdie de waarden in de kolomcleanlinessbevat, omgezet naar kleine letters. - Tel het aantal voorkomens van elke categorie in
dest_size_trimmed. - Tel het aantal voorkomens van elke categorie in
cleanliness_lower.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___