ComeçarComece de graça

Armadilha das dummies

A armadilha das dummies acontece quando variáveis dummy diferentes transmitem a mesma informação. Neste caso, se uma pessoa colaboradora é, por exemplo, do departamento de contabilidade (ou seja, o valor na coluna accounting é 1), então você tem certeza de que ela não é de nenhum outro departamento (os valores nas demais colunas são 0). Assim, seria possível descobrir o departamento dela olhando para todas as outras dummies de departamento.

Por esse motivo, sempre que \(n\) dummies são criadas (no seu caso, 10), apenas \(n\) - 1 (no seu caso, 9) já são suficientes, e a informação da \(n\)-ésima coluna está implícita.

Portanto, você vai remover a coluna antiga de departamento, descartar uma das dummies de departamento para evitar a armadilha das dummies e, em seguida, unir os dois DataFrames.

Este exercício faz parte do curso

HR Analytics: prevendo rotatividade de funcionários em Python

Ver curso

Instruções do exercício

  • Use .drop() na coluna accounting para evitar a "armadilha das dummies".
  • Use .drop() na antiga coluna department, pois você não precisa mais dela.
  • Una o novo DataFrame departments ao conjunto de dados employee (isso já foi feito para você).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)

# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)

# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)
Editar e executar o código