Armadilha das dummies
A armadilha das dummies acontece quando variáveis dummy diferentes transmitem a mesma informação. Neste caso, se uma pessoa colaboradora é, por exemplo, do departamento de contabilidade (ou seja, o valor na coluna accounting é 1), então você tem certeza de que ela não é de nenhum outro departamento (os valores nas demais colunas são 0).
Assim, seria possível descobrir o departamento dela olhando para todas as outras dummies de departamento.
Por esse motivo, sempre que \(n\) dummies são criadas (no seu caso, 10), apenas \(n\) - 1 (no seu caso, 9) já são suficientes, e a informação da \(n\)-ésima coluna está implícita.
Portanto, você vai remover a coluna antiga de departamento, descartar uma das dummies de departamento para evitar a armadilha das dummies e, em seguida, unir os dois DataFrames.
Este exercício faz parte do curso
HR Analytics: prevendo rotatividade de funcionários em Python
Instruções do exercício
- Use
.drop()na colunaaccountingpara evitar a "armadilha das dummies". - Use
.drop()na antiga colunadepartment, pois você não precisa mais dela. - Una o novo DataFrame
departmentsao conjunto de dadosemployee(isso já foi feito para você).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)