Integridad de los datos
Al explorar un conjunto de datos, a veces te encontrarás con algo que te haga cuestionar cómo se compiló la información. Por ejemplo, la variable num_char contiene el número de caracteres del email, en miles, por lo que puede tomar valores decimales, pero desde luego no debería tomar valores negativos.
Puedes plantear una prueba para asegurarte de que esta variable se comporta como esperamos:
email$num_char < 0
Si ejecutas este código en la consola, obtendrás un vector largo de valores lógicos que indica, para cada caso del conjunto de datos, si esa condición es TRUE. Aquí, los primeros 1000 valores parecen ser todos FALSE. Para verificar que todos los casos tienen efectivamente valores no negativos para num_char, podemos tomar la suma de este vector:
sum(email$num_char < 0)
Este es un atajo muy útil. Cuando haces operaciones aritméticas con valores lógicos, R trata TRUE como 1 y FALSE como 0. Como la suma de todo el vector es cero, deduces que cada caso del conjunto de datos tomó el valor FALSE en la prueba. Es decir, la columna num_char se comporta como esperamos y solo toma valores no negativos.
Este ejercicio forma parte del curso
Análisis exploratorio de datos en R
Instrucciones del ejercicio
Considera las variables image y attach. Puedes leer sobre ellas con ?email, pero el archivo de ayuda es ambiguo: ¿las imágenes adjuntas cuentan como archivos adjuntos en este conjunto de datos?
Diseña una prueba sencilla para determinar si las imágenes cuentan como archivos adjuntos. Esto implica crear una condición lógica para comparar los valores de las dos variables y luego usar sum() para evaluar cada caso del conjunto de datos. Recuerda que los operadores lógicos son < para menor que, <= para menor o igual que, > para mayor que, >= para mayor o igual que y == para igual a.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Test if images count as attachments