Integridade dos dados
No processo de exploração de um conjunto de dados, às vezes você se deparará com algo que o levará a questionar como os dados foram compilados. Por exemplo, a variável num_char
contém o número de caracteres no e-mail, em milhares, de modo que ela pode assumir valores decimais, mas certamente não deve assumir valores negativos.
Você pode formular um teste para garantir que essa variável esteja se comportando conforme o esperado:
email$num_char < 0
Se você executar esse código no console, obterá um longo vetor de valores lógicos indicando, para cada caso no conjunto de dados, se essa condição é TRUE
. Aqui, os primeiros 1.000 valores parecem ser todos FALSE
. Para verificar se todos os casos realmente têm valores não negativos para num_char
, podemos obter a soma desse vetor:
sum(email$num_char < 0)
Esse é um atalho útil. Quando você faz aritmética em valores lógicos, o R trata TRUE
como 1
e FALSE
como 0
. Como a soma de todo o vetor é zero, você sabe que todos os casos do conjunto de dados assumiram o valor de FALSE
no teste. Ou seja, a coluna num_char
está se comportando como esperado e assumindo apenas valores não negativos.
Este exercício faz parte do curso
Análise exploratória de dados em R
Instruções do exercício
Considere as variáveis image
e attach
. Você pode ler sobre eles em ?email
, mas o arquivo de ajuda é ambíguo: as imagens anexadas contam como arquivos anexados nesse conjunto de dados?
Crie um teste simples para determinar se as imagens contam como arquivos anexados. Isso envolve a criação de uma condição lógica para comparar os valores das duas variáveis e, em seguida, usar o site sum()
para avaliar cada caso no conjunto de dados. Lembre-se de que os operadores lógicos são <
para menor que, <=
para menor ou igual a, >
para maior que, >=
para maior ou igual a e ==
para igual a.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Test if images count as attachments