Inconsistenties corrigeren

Nu je hebt vastgesteld dat dest_size inconsistenties in witruimte heeft en cleanliness inconsistenties in hoofdletters, ga je de nieuwe tools gebruiken om de inconsistente waarden in sfo_survey te herstellen in plaats van de datapunten volledig te verwijderen. Dat zou namelijk bias kunnen toevoegen aan je gegevensset als meer dan 5% van de datapunten moet worden weggegooid.

dplyr en stringr zijn geladen en sfo_survey is beschikbaar.

Deze oefening maakt deel uit van de cursus

Data opschonen in R

Oefeninstructies

Voeg een kolom toe aan sfo_survey met de naam dest_size_trimmed die de waarden in de kolom dest_size bevat, met alle spaties aan het begin en einde verwijderd.
Voeg nog een kolom toe met de naam cleanliness_lower die de waarden in de kolom cleanliness bevat, omgezet naar kleine letters.
Tel het aantal voorkomens van elke categorie in dest_size_trimmed.
Tel het aantal voorkomens van elke categorie in cleanliness_lower.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Data opschonen in R

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je enkele van de meest voorkomende problemen met rommelige data aanpakt. Je zet datatypes om, past bereikbeperkingen toe om toekomstige datapunten te verwijderen en haalt dubbele datapunten weg om dubbel tellen te voorkomen.

Exercise 1: Beperkingen op gegevenstypen Exercise 2: Veelvoorkomende gegevenstypen Exercise 3: Gegevenstypen omzetten Exercise 4: Strings bijsnijden Exercise 5: Bereikbeperkingen Exercise 6: Beperkingen voor ritduur Exercise 7: Terug naar de toekomst Exercise 8: Uniciteitsbeperkingen Exercise 9: Volledige duplicaten Exercise 10: Gedeeltelijke duplicaten verwijderen Exercise 11: Gedeeltelijke duplicaten aggregeren

Categorische en tekstuele data zijn vaak de rommeligste onderdelen van een gegevensset door hun ongestructureerde aard. In dit hoofdstuk leer je hoe je witruimte en inconsistent hoofdlettergebruik in categorielabels corrigeert, meerdere categorieën samenvoegt en strings herformatteert voor consistentie.

Exercise 1: Lidmaatschap controleren Exercise 2: Alleen voor leden Exercise 3: Geen lid Exercise 4: Problemen met categorische data Exercise 5: Inconsistenties herkennen Exercise 6: Inconsistenties corrigeren

Huidige oefening

Exercise 7: Categorieën samenvoegen Exercise 8: Tekstgegevens opschonen Exercise 9: Inconsistente tekstgegevens opsporen Exercise 10: Vervangen en verwijderen Exercise 11: Ongeldige telefoonnummers

In dit hoofdstuk ga je aan de slag met meer geavanceerde opschoningsproblemen, zoals ervoor zorgen dat gewichten allemaal in kilogram worden genoteerd in plaats van in pounds. Je ontwikkelt ook waardevolle vaardigheden om te controleren of waarden correct zijn ingevoerd en of ontbrekende waarden je analyses niet negatief beïnvloeden.

Exercise 1: Uniformiteit Exercise 2: Uniformiteit van datums Exercise 3: Valuta-uniformiteit Exercise 4: Validatie over velden Exercise 5: Totalen valideren Exercise 6: Leeftijd valideren Exercise 7: Volledigheid Exercise 8: Soorten ontbrekendheid Exercise 9: Ontbrekende data visualiseren Exercise 10: Omgaan met missende data

Record linkage is een krachtige techniek om meerdere gegevenssets samen te voegen, gebruikt wanneer waarden typfouten of verschillende spellingen hebben. In dit hoofdstuk leer je records koppelen door de gelijkenis tussen strings te berekenen—daarna gebruik je je nieuwe vaardigheden om twee gegevenssets met restaurantreviews samen te voegen tot één schone mastergegevensset.

Exercise 1: Strings vergelijken Exercise 2: Afstand berekenen Exercise 3: Kleine afstand, klein verschil Exercise 4: Typfouten oplossen met stringafstand Exercise 5: Paren genereren en vergelijken Exercise 6: Koppelen of joinen?Exercise 7: Pair blocking Exercise 8: Paren vergelijken Exercise 9: Scoren en koppelen Exercise 10: Eerst scoren en dan selecteren, of eerst selecteren en dan scoren?Exercise 11: Alles samenbrengen Exercise 12: Gefeliciteerd!