1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích Khám phá Dữ liệu với R

Connected

Bài tập

Tính toàn vẹn dữ liệu

Khi khám phá một tập dữ liệu, đôi khi bạn sẽ gặp điều gì đó khiến bạn đặt câu hỏi về cách dữ liệu được tổng hợp. Ví dụ, biến num_char chứa số ký tự trong email, tính theo nghìn, vì vậy nó có thể nhận giá trị thập phân, nhưng chắc chắn không nên có giá trị âm.

Bạn có thể xây dựng một phép kiểm tra để đảm bảo biến này hoạt động như kỳ vọng:

email$num_char < 0

Nếu bạn chạy đoạn mã này ở console, bạn sẽ nhận được một vector dài các giá trị logic cho biết đối với từng bản ghi trong tập dữ liệu điều kiện đó có TRUE hay không. Ở đây, 1000 giá trị đầu tiên đều có vẻ là FALSE. Để xác nhận rằng tất cả các bản ghi thực sự có giá trị không âm cho num_char, ta có thể lấy tổng của vector này:

sum(email$num_char < 0)

Đây là một lối tắt hữu ích. Khi bạn thực hiện phép toán trên các giá trị logic, R coi TRUE là 1 và FALSE là 0. Vì tổng trên toàn bộ vector bằng 0, bạn biết rằng mọi bản ghi trong tập dữ liệu đều cho giá trị FALSE trong phép kiểm tra. Nghĩa là cột num_char hoạt động như mong đợi và chỉ nhận các giá trị không âm.

Hướng dẫn

100 XP

Xem xét các biến image và attach. Bạn có thể đọc mô tả của chúng với ?email, nhưng trang trợ giúp không rõ ràng: trong tập dữ liệu này, ảnh đính kèm có được tính là tệp đính kèm không?

Hãy thiết kế một phép kiểm tra đơn giản để xác định liệu ảnh có được tính là tệp đính kèm. Việc này gồm tạo một điều kiện logic để so sánh giá trị của hai biến, rồi dùng sum() để đánh giá mọi bản ghi trong tập dữ liệu. Nhớ rằng các toán tử logic là < cho nhỏ hơn, <= cho nhỏ hơn hoặc bằng, > cho lớn hơn, >= cho lớn hơn hoặc bằng, và == cho bằng.