ComeçarComece de graça

Integridade dos dados

No processo de explorar um conjunto de dados, às vezes você vai se deparar com algo que leva a questionar como os dados foram compilados. Por exemplo, a variável num_char contém o número de caracteres no e-mail, em milhares, então pode assumir valores decimais, mas certamente não deveria assumir valores negativos.

Você pode formular um teste para garantir que essa variável está se comportando como esperado:

email$num_char < 0

Se você executar esse código no console, obterá um longo vetor de valores lógicos indicando, para cada caso no conjunto de dados, se essa condição é TRUE. Aqui, os primeiros 1000 valores parecem ser todos FALSE. Para verificar se todos os casos realmente têm valores não negativos para num_char, podemos tomar a soma desse vetor:

sum(email$num_char < 0)

Esse é um atalho útil. Quando você faz operações aritméticas com valores lógicos, o R trata TRUE como 1 e FALSE como 0. Como a soma sobre todo o vetor é zero, você conclui que cada caso no conjunto de dados assumiu o valor FALSE no teste. Ou seja, a coluna num_char está se comportando como esperado e assumindo apenas valores não negativos.

Este exercício faz parte do curso

Análise Exploratória de Dados em R

Ver curso

Instruções do exercício

Considere as variáveis image e attach. Você pode ler sobre elas com ?email, mas o arquivo de ajuda é ambíguo: neste conjunto de dados, imagens anexadas contam como arquivos anexados?

Crie um teste simples para determinar se imagens contam como arquivos anexados. Isso envolve criar uma condição lógica para comparar os valores das duas variáveis e depois usar sum() para avaliar todos os casos no conjunto de dados. Lembre-se de que os operadores lógicos são < para menor que, <= para menor ou igual a, > para maior que, >= para maior ou igual a e == para igual a.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Test if images count as attachments
Editar e executar o código