1. 学ぶ
  2. /
  3. コース
  4. /
  5. Phân tích Khám phá Dữ liệu với R

Connected

演習

Spam và num_char

Liệu có mối liên hệ giữa email spam và độ dài của email không? Bạn có thể hình dung lập luận theo cả hai hướng:

  • Spam có khả năng là tin nhắn ngắn nhằm dụ tôi bấm vào một liên kết, hoặc
  • Email bình thường của tôi có thể ngắn hơn vì tôi thường xuyên trao đổi email ngắn với bạn bè.

Ở đây, bạn sẽ dùng bộ dữ liệu email để làm rõ câu hỏi đó. Bắt đầu bằng cách mở trang trợ giúp và tìm hiểu tất cả các biến với ?email.

Khi bạn khám phá mối liên hệ giữa spam và độ dài email, hãy nhân dịp này thử liên kết một chuỗi dplyr với các lớp trong một đối tượng ggplot2.

指示

100 XP

Sử dụng bộ dữ liệu email

  • Nạp các gói ggplot2, dplyr, và openintro.
  • Tính các thước đo phù hợp về trung tâm và độ phân tán của num_char cho cả spam và không-spam bằng group_by() và summarize(). Không cần đặt tên cho các cột mới do summarize() tạo ra.
  • Vẽ các box plot đặt cạnh nhau để trực quan hóa mối liên hệ giữa cùng hai biến này. Sẽ hữu ích nếu bạn mutate() thêm một cột mới chứa phiên bản log-transform của num_char.