1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích Nhân sự (HR Analytics): Dự đoán nghỉ việc bằng Python

Connected

Bài tập

Chia dữ liệu nhân viên

Overfitting là vấn đề phổ biến trong phân tích. Điều này xảy ra khi một mô hình hoạt động tốt trên chính tập dữ liệu nó được phát triển, nhưng không khái quát hóa tốt ra ngoài tập đó.

Ta thực hiện train/test split để đảm bảo khả năng khái quát của mô hình: bạn phát triển mô hình trên tập huấn luyện và thử nghiệm nó trên tập kiểm tra sau đó.

Trong bài tập này, bạn sẽ chia cả target và features thành tập huấn luyện và tập kiểm tra với tỷ lệ lần lượt là 75%/25%.

Hướng dẫn

100 XP
  • Import train_test_split từ module sklearn.model_selection
  • Dùng train_test_split() để chia tập dữ liệu của bạn thành tập huấn luyện và tập kiểm tra
  • Gán 25% quan sát vào tập kiểm tra