Aan de slagGa gratis aan de slag

Inconsistenties corrigeren

Nu je hebt vastgesteld dat dest_size inconsistenties in witruimte heeft en cleanliness inconsistenties in hoofdletters, ga je de nieuwe tools gebruiken om de inconsistente waarden in sfo_survey te herstellen in plaats van de datapunten volledig te verwijderen. Dat zou namelijk bias kunnen toevoegen aan je gegevensset als meer dan 5% van de datapunten moet worden weggegooid.

dplyr en stringr zijn geladen en sfo_survey is beschikbaar.

Deze oefening maakt deel uit van de cursus

Data opschonen in R

Cursus bekijken

Oefeninstructies

  • Voeg een kolom toe aan sfo_survey met de naam dest_size_trimmed die de waarden in de kolom dest_size bevat, met alle spaties aan het begin en einde verwijderd.
  • Voeg nog een kolom toe met de naam cleanliness_lower die de waarden in de kolom cleanliness bevat, omgezet naar kleine letters.
  • Tel het aantal voorkomens van elke categorie in dest_size_trimmed.
  • Tel het aantal voorkomens van elke categorie in cleanliness_lower.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___
Code bewerken en uitvoeren