1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình phân cấp và hiệu ứng hỗn hợp trong R

Connected

Bài tập

Trực quan hóa dữ liệu tội phạm Maryland

Trước khi xây dựng mô hình, việc vẽ biểu đồ dữ liệu giúp bạn "nhìn thấy" liệu có xu hướng hay điểm dữ liệu nổi bật, có ngoại lệ hay không, hoặc những đặc điểm khác của dữ liệu cần cân nhắc sau này. Với ggplot2, bạn có thể vẽ các đường theo từng hạt (county) và xem tội phạm thay đổi theo thời gian như thế nào. Trong bài này, bạn sẽ xem dữ liệu tội phạm Maryland (md_crime). Bộ dữ liệu gồm Year, số vụ Crime bạo lực trong hạt, và tên County.

Để khám phá dữ liệu, trước hết hãy vẽ các điểm dữ liệu cho mỗi hạt theo thời gian. Cách này cho bạn thấy từng hạt thay đổi thế nào qua thời gian. Thay vì dùng thuộc tính thẩm mỹ như color, ở đây dùng group vì có quá nhiều hạt để phân biệt màu sắc một cách rõ ràng. Sau khi vẽ dữ liệu thô, hãy thêm các đường xu hướng cho từng hạt.

Cả các điểm được nối (geom_line) và các đường xu hướng (geom_smooth) đều cung cấp góc nhìn về việc có cần các hiệu ứng ngẫu nhiên nào hay không. Nếu tất cả các điểm có khoảng giá trị và trung bình tương tự nhau, có thể không cần chặn (intercept) ngẫu nhiên. Tương tự, nếu xu hướng trông nhất quán giữa các hạt (tức là các đường xu hướng giữa các nhóm trông giống hoặc song song), có thể không cần hệ số dốc (slope) ngẫu nhiên.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Vẽ cách Crime (biến y) thay đổi theo Year (biến x) trong mỗi County (biến group) bằng dữ liệu md_crime.
  • Thêm các đường xu hướng cho từng hạt với geom_smooth(method = 'lm', se = FALSE). se = FALSE giúp biểu đồ bớt rối.