ComeçarComece de graça

Integridade dos dados

No processo de exploração de um conjunto de dados, às vezes você se deparará com algo que o levará a questionar como os dados foram compilados. Por exemplo, a variável num_char contém o número de caracteres no e-mail, em milhares, de modo que ela pode assumir valores decimais, mas certamente não deve assumir valores negativos.

Você pode formular um teste para garantir que essa variável esteja se comportando conforme o esperado:

email$num_char < 0

Se você executar esse código no console, obterá um longo vetor de valores lógicos indicando, para cada caso no conjunto de dados, se essa condição é TRUE. Aqui, os primeiros 1.000 valores parecem ser todos FALSE. Para verificar se todos os casos realmente têm valores não negativos para num_char, podemos obter a soma desse vetor:

sum(email$num_char < 0)

Esse é um atalho útil. Quando você faz aritmética em valores lógicos, o R trata TRUE como 1 e FALSE como 0. Como a soma de todo o vetor é zero, você sabe que todos os casos do conjunto de dados assumiram o valor de FALSE no teste. Ou seja, a coluna num_char está se comportando como esperado e assumindo apenas valores não negativos.

Este exercício faz parte do curso

Análise exploratória de dados em R

Ver curso

Instruções do exercício

Considere as variáveis image e attach. Você pode ler sobre eles em ?email, mas o arquivo de ajuda é ambíguo: as imagens anexadas contam como arquivos anexados nesse conjunto de dados?

Crie um teste simples para determinar se as imagens contam como arquivos anexados. Isso envolve a criação de uma condição lógica para comparar os valores das duas variáveis e, em seguida, usar o site sum() para avaliar cada caso no conjunto de dados. Lembre-se de que os operadores lógicos são < para menor que, <= para menor ou igual a, > para maior que, >= para maior ou igual a e == para igual a.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Test if images count as attachments
Editar e executar o código