1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích Khám phá Dữ liệu với R

Connected

Bài tập

Gộp bậc (levels)

Nếu bạn thấy khó làm việc với độ lệch mạnh của exclaim_mess, thì số lượng ảnh đính kèm trong mỗi email (image) còn thách thức hơn nữa. Chạy đoạn mã sau ở console để hình dung phân phối của biến này:

table(email$image)

Hãy nhớ rằng lệnh này đếm số trường hợp trong mỗi nhóm (ví dụ có 3811 email với 0 ảnh). Vì số đếm ở các mức ảnh cao rất thấp, hãy gộp image thành một biến phân loại cho biết email có ít nhất một ảnh hay không. Trong bài tập này, bạn sẽ tạo biến mới này và khám phá mối liên hệ của nó với spam.

Hướng dẫn

100 XP

Bắt đầu với email, tạo một chuỗi thao tác liên tục nối các bước sau:

  • Tạo biến mới tên has_image có giá trị TRUE khi số lượng ảnh lớn hơn 0 và FALSE nếu không.
  • Tạo một biểu đồ phù hợp với email để trực quan hóa mối quan hệ giữa has_image và spam.