1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích Nhân sự (HR Analytics): Dự đoán nghỉ việc bằng Python

Connected

Bài tập

Bẫy biến giả (dummy trap)

Bẫy biến giả là tình huống khi các biến giả khác nhau lại truyền tải cùng một thông tin. Ở đây, nếu một nhân viên thuộc phòng kế toán (tức giá trị ở cột accounting là 1) thì bạn chắc chắn người đó không thuộc bất kỳ phòng ban nào khác (các giá trị ở chỗ khác đều là 0). Vì vậy, bạn hoàn toàn có thể suy ra phòng ban của người đó chỉ bằng cách nhìn vào tất cả các cột phòng ban còn lại.

Do đó, mỗi khi tạo \(n\) biến giả (trong trường hợp này là 10), chỉ cần \(n\) - 1 (ở đây là 9) là đủ, vì thông tin của cột thứ \(n\) đã được bao hàm.

Vì thế, bạn sẽ bỏ cột phòng ban gốc, loại bớt một trong các biến giả phòng ban để tránh bẫy biến giả, rồi nối hai DataFrame lại với nhau.

Hướng dẫn

100 XP
  • .drop() cột accounting để tránh "dummy trap".
  • .drop() cột gốc department vì bạn không cần nữa.
  • Nối DataFrame departments mới vào bộ dữ liệu employee (đã được thực hiện sẵn cho bạn).