1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Biểu đồ mosaic

Biểu đồ spine bạn đã tạo ở bài trước cho phép bạn xem xét mẫu dữ liệu thiếu giữa hai biến cùng lúc. Ý tưởng này được tổng quát hóa cho nhiều biến hơn dưới dạng biểu đồ mosaic.

Trong bài này, bạn sẽ bắt đầu bằng cách tạo một biến giả cho biết liệu Hoa Kỳ có tham gia sản xuất từng bộ phim hay không. Để làm điều này, bạn sẽ dùng hàm grepl(), hàm này kiểm tra xem chuỗi truyền vào làm đối số thứ nhất có xuất hiện trong đối tượng truyền vào làm đối số thứ hai hay không. Sau đó, bạn sẽ vẽ một biểu đồ mosaic để xem giới tính của nhân vật chính có tương quan với mức độ thiếu dữ liệu về doanh thu hay không, cho cả phim của Mỹ và không phải của Mỹ.

Bộ dữ liệu biopics cũng như gói VIM đã được nạp sẵn cho bạn. Hãy bắt đầu trực quan hóa khám phá!

Lưu ý rằng một hàm độc quyềndisplay_image()đã được tạo để trả về đầu ra từ phiên bảnVIMmới nhất. Hãy nhớ mở rộng phầnHTML Viewer.

Hướng dẫn

100 XP
  • Đưa dữ liệu biopics vào pipeline của dplyr.
  • Tạo biến giả is_US_movie có giá trị TRUE nếu country chứa chuỗi "US" và FALSE nếu không.
  • Vẽ biểu đồ mosaic thể hiện lượng dữ liệu thiếu trong "earnings" được chia theo "is_US_movie" và "sub_sex", nhớ truyền tên biến dưới dạng chuỗi.