1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Dữ liệu phân loại trong Tidyverse

Connected

Bài tập

Gộp biến theo tỷ lệ

Nhiều khi bạn sẽ không có sẵn các mức (level) cụ thể để đổi thành "khác" hoặc gộp lại với nhau. Thay vào đó, bạn muốn giữ các mức phổ biến nhất và đưa mọi thứ còn lại vào "other." Đặc biệt khi có rất nhiều mức và đa số là hiếm, cách này giúp việc hiển thị dữ liệu rõ ràng hơn. Hãy thử áp dụng với câu hỏi trong khảo sát Kaggle về việc mọi người muốn thử phương pháp machine learning nào trong năm tới. multiple_choice_responses đã được nạp sẵn cho bạn. Khi đếm, hãy nhớ rằng sort = TRUE mặc định sắp xếp theo thứ tự giảm dần.

Hướng dẫn

100 XP
  • Loại những người không chọn phương pháp nào.
  • Tạo biến mới ml_method từ MLMethodNextYearSelect để giữ lại các tên có ít nhất 5% số người trả lời và gộp phần còn lại thành "Other" (giá trị mặc định).
  • Cuối cùng, đếm biến mới của bạn, sắp xếp theo thứ tự giảm dần.