1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Trực quan hóa dữ liệu nâng cao với ggplot2

Connected

Bài tập

Sử dụng stat_sum

Trong bộ dữ liệu Vocab, education và vocabulary là các biến kiểu số nguyên. Ở khóa học đầu tiên, bạn đã thấy đây là một trong bốn nguyên nhân gây chồng lắp điểm (overplotting). Bạn sẽ chỉ nhận được một điểm tại mỗi giao điểm giữa hai biến.

Một cách khắc phục, như ở bước 1, là dùng jitter kèm độ trong suốt. Một cách khác là dùng stat_sum(), hàm này tính tổng số quan sát bị chồng lắp và ánh xạ con số đó vào thuộc tính thẩm mỹ size.

stat_sum() cho phép dùng một biến đặc biệt, ..prop.., để hiển thị tỷ lệ các giá trị trong toàn bộ dữ liệu.

Hướng dẫn 1/4

undefined XP
  • 1
    • Chạy mã để xem cách jitter & độ trong suốt giải quyết overplotting.
    • Thay các điểm jitter bằng thống kê tổng, dùng stat_sum().
  • 2

    Chỉnh sửa thuộc tính thẩm mỹ kích thước (size) bằng hàm scale phù hợp.

    • Thêm hàm scale_size() để đặt range từ 1 đến 10.
  • 3

    Trong stat_sum(), đặt size là ..prop.. để kích thước vòng tròn biểu diễn tỷ lệ trên toàn bộ dữ liệu.

  • 4

    Cập nhật biểu đồ để group theo education, để kích thước vòng tròn biểu diễn tỷ lệ trong từng nhóm.