1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích Khám phá Dữ liệu với R

Connected

Bài tập

Trả lời câu hỏi bằng các chuỗi thao tác

Khi bạn có một câu hỏi cụ thể về một tập dữ liệu, bạn có thể tìm ra câu trả lời bằng cách cẩn thận xây dựng một chuỗi mã R phù hợp. Ví dụ, hãy xem xét câu hỏi sau: "Trong các email không phải spam, độ dài điển hình của email có ngắn hơn đối với những email được gửi cho nhiều người không?"

Câu hỏi này có thể được trả lời bằng chuỗi sau:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

Đoạn mã cho thấy rõ bạn đang dùng num_char để đo độ dài email và median() làm thước đo cho giá trị điển hình. Nếu bạn chạy mã này, bạn sẽ thấy câu trả lời là "có": độ dài điển hình của email không phải spam được gửi cho nhiều người thấp hơn một chút so với email gửi cho một người.

Chuỗi trên kết thúc bằng thống kê tóm tắt, nhưng các chuỗi khác có thể kết thúc bằng một biểu đồ; tất cả phụ thuộc vào câu hỏi bạn muốn trả lời.

Hướng dẫn

100 XP

Hãy xây dựng một chuỗi thao tác để trả lời từng câu hỏi sau, cả hai đều liên quan đến biến dollar.

  • Với các email có chứa từ "dollar", email spam điển hình có số lần xuất hiện của từ này nhiều hơn email không phải spam điển hình không? Hãy tạo một thống kê tóm tắt để trả lời câu hỏi.
  • Nếu bạn gặp một email có hơn 10 lần xuất hiện của từ dollar, khả năng nó là spam hay không phải spam cao hơn? Hãy tạo một biểu đồ cột để trả lời câu hỏi này.