Aan de slagGa gratis aan de slag

Dataintegriteit

Tijdens het verkennen van een gegevensset kom je soms iets tegen waardoor je gaat twijfelen aan hoe de data zijn samengesteld. Zo bevat de variabele num_char het aantal tekens in de e-mail, in duizendtallen. Die kan dus decimale waarden aannemen, maar zeker geen negatieve waarden.

Je kunt een test formuleren om te checken of deze variabele zich gedraagt zoals verwacht:

email$num_char < 0

Als je deze code in de console uitvoert, krijg je een lange vector met logische waarden die voor elk geval in de gegevensset aangeeft of die voorwaarde TRUE is. Hier blijken de eerste 1000 waarden allemaal FALSE te zijn. Om te controleren of alle gevallen inderdaad niet-negatieve waarden voor num_char hebben, kunnen we de som van deze vector nemen:

sum(email$num_char < 0)

Dit is een handige shortcut. Als je rekenkundige bewerkingen uitvoert op logische waarden, behandelt R TRUE als 1 en FALSE als 0. Omdat de som over de hele vector nul is, zie je dat elk geval in de gegevensset de waarde FALSE kreeg in de test. Met andere woorden: de kolom num_char gedraagt zich zoals verwacht en bevat alleen niet-negatieve waarden.

Deze oefening maakt deel uit van de cursus

Exploratory Data Analysis in R

Cursus bekijken

Oefeninstructies

Bekijk de variabelen image en attach. Je kunt erover lezen met ?email, maar het helpbestand is dubbelzinnig: tellen bijgevoegde afbeeldingen in deze gegevensset mee als bijgevoegde bestanden?

Ontwerp een eenvoudige test om te bepalen of afbeeldingen meetellen als bijgevoegde bestanden. Dit houdt in dat je een logische voorwaarde maakt om de waarden van de twee variabelen te vergelijken en vervolgens sum() gebruikt om elk geval in de gegevensset te beoordelen. Onthoud dat de logische operatoren < voor kleiner dan, <= voor kleiner dan of gelijk aan, > voor groter dan, >= voor groter dan of gelijk aan en == voor gelijk aan zijn.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Test if images count as attachments
Code bewerken en uitvoeren