Intégrité des données
En explorant un jeu de données, il arrive que certains éléments vous amènent à vous interroger sur la façon dont les données ont été compilées. Par exemple, la variable num_char contient le nombre de caractères de l’e-mail, en milliers ; elle peut donc prendre des valeurs décimales, mais elle ne devrait certainement pas prendre de valeurs négatives.
Vous pouvez formuler un test pour vérifier que cette variable se comporte comme prévu :
email$num_char < 0
Si vous exécutez ce code dans la console, vous obtiendrez un long vecteur de valeurs logiques indiquant, pour chaque cas du jeu de données, si cette condition est TRUE. Ici, les 1000 premières valeurs semblent toutes être FALSE. Pour vérifier que tous les cas ont bien des valeurs non négatives pour num_char, on peut prendre la somme de ce vecteur :
sum(email$num_char < 0)
C’est un raccourci pratique. Lorsque vous faites des opérations arithmétiques sur des valeurs logiques, R traite TRUE comme 1 et FALSE comme 0. Comme la somme sur l’ensemble du vecteur est nulle, vous apprenez que chaque cas du jeu de données a pris la valeur FALSE dans le test. Autrement dit, la colonne num_char se comporte comme prévu et ne prend que des valeurs non négatives.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
Considérez les variables image et attach. Vous pouvez en lire la description avec ?email, mais le fichier d’aide est ambigu : dans ce jeu de données, les images jointes sont-elles comptabilisées comme des fichiers joints ?
Concevez un test simple pour déterminer si les images comptent comme des fichiers joints. Il s’agit de créer une condition logique pour comparer les valeurs des deux variables, puis d’utiliser sum() pour évaluer chaque cas du jeu de données. Rappel : les opérateurs logiques sont < pour inférieur à, <= pour inférieur ou égal à, > pour supérieur à, >= pour supérieur ou égal à, et == pour égal à.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Test if images count as attachments