1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Giảm Chiều Dữ Liệu với R

Connected

Bài tập

Tính số tổ hợp có thể có

Data frame healthcare_cat_df chứa các biến phân loại về nhân viên trong một công ty chăm sóc sức khỏe và việc họ có rời công ty hay không. Bạn sẽ dùng dữ liệu này để xác định số lượng tổ hợp của các giá trị đặc trưng xuất hiện trong tập dữ liệu.

Khi huấn luyện một mô hình machine learning, bạn muốn dữ liệu có nhiều quan sát cho mỗi tổ hợp. Vì vậy, số lượng tổ hợp giúp đặt ra một mốc tham chiếu cho số lượng quan sát tối thiểu bạn cần thu thập để giúp tránh thiên lệch trong mô hình.

Gói tidyverse đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Tính số lượng quan sát tối thiểu cần có để biểu diễn tất cả các tổ hợp của các giá trị đặc trưng trong healthcare_cat_df.