1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn trực quan hóa dữ liệu với ggplot2

Connected

Bài tập

Chồng điểm 1: dữ liệu lớn

Biểu đồ phân tán (dùng geom_point()) trực quan, dễ hiểu và rất phổ biến, nhưng bạn luôn phải cân nhắc chồng điểm (overplotting), đặc biệt trong bốn tình huống sau:

  1. Tập dữ liệu lớn
  2. Giá trị thẳng hàng trên một trục
  3. Dữ liệu độ chính xác thấp
  4. Dữ liệu kiểu số nguyên

Thông thường, nên dùng alpha (tức là thêm độ trong suốt) khi sử dụng các hình đặc. Hoặc bạn có thể dùng các hình rỗng nhưng mờ đục.

Điểm nhỏ phù hợp với tập dữ liệu lớn có vùng mật độ cao (nhiều điểm chồng lên nhau).

Hãy dùng bộ dữ liệu diamonds để luyện tập xử lý trường hợp dữ liệu lớn.

Hướng dẫn 1/2

undefined XP
  • 1

    Thêm một lớp điểm vào biểu đồ nền.

    • Đặt độ trong suốt của điểm là 0.5.
    • Đặt shape = ".", kích thước điểm tương đương 1 pixel.
  • 2

    Cập nhật hình dạng điểm để loại bỏ đường viền bằng cách đặt shape thành 16.