1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích Khám phá Dữ liệu với R

Connected

Bài tập

Spam và !!!

Hãy xem một dấu hiệu rõ ràng hơn của spam: dấu chấm than. exclaim_mess chứa số lượng dấu chấm than trong mỗi tin nhắn. Dùng thống kê tóm tắt và trực quan hóa để xem liệu có mối liên hệ nào giữa biến này và việc một tin nhắn có phải spam hay không.

Hãy thử nghiệm với các dạng biểu đồ khác nhau cho đến khi bạn tìm được loại trực quan hóa cung cấp nhiều thông tin nhất. Hãy nhớ bạn đã thấy:

  • Biểu đồ hộp đặt cạnh nhau
  • Biểu đồ histogram theo ô (faceting)
  • Biểu đồ mật độ chồng lên nhau

Hướng dẫn

100 XP

Bộ dữ liệu email vẫn có sẵn trong không gian làm việc của bạn.

  • Tính các thước đo phù hợp của mức trung tâm và độ phân tán cho exclaim_mess cho cả hai nhóm spam và không-spam bằng group_by() và summarize().
  • Vẽ một biểu đồ phù hợp để trực quan hóa mối liên hệ giữa cùng hai biến đó, thêm bước biến đổi log nếu cần.
  • Nếu bạn quyết định dùng biến đổi log, nhớ rằng log(0) là -Inf trong R, giá trị này không hữu ích lắm! Bạn có thể xử lý bằng cách cộng một số nhỏ (như 0.01) vào lượng bên trong hàm log(). Cách này giúp giá trị của bạn không bao giờ bằng 0. Sự dịch chuyển nhỏ sang bên phải này sẽ không ảnh hưởng đến kết quả.