Dummy trap
Dummy trap adalah situasi ketika beberapa variabel dummy menyampaikan informasi yang sama. Dalam kasus ini, jika seorang karyawan berasal dari departemen akuntansi (yaitu nilai pada kolom accounting adalah 1), maka sudah pasti ia bukan dari departemen lain mana pun (nilai di kolom lain adalah 0).
Dengan demikian, Anda sebenarnya dapat mengetahui departemennya dengan melihat semua departemen lainnya.
Karena itu, setiap kali \(n\) dummy dibuat (dalam kasus Anda, 10), hanya \(n\) - 1 (dalam kasus Anda, 9) yang diperlukan, dan informasi pada kolom ke-\(n\) sudah tercakup.
Oleh karena itu, Anda akan menyingkirkan kolom departemen lama, menghapus salah satu dummy departemen untuk menghindari dummy trap, lalu menggabungkan kedua DataFrame tersebut.
Latihan ini adalah bagian dari kursus
Analitik SDM: Memprediksi Perputaran Karyawan dengan Python
Petunjuk latihan
.drop()kolomaccountinguntuk menghindari "dummy trap"..drop()kolom lamadepartmentkarena Anda tidak membutuhkannya lagi.- Gabungkan DataFrame
departmentsyang baru ke himpunan dataemployee(ini sudah dilakukan untuk Anda).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)