Trampa de dummies
La trampa de dummies ocurre cuando distintas variables ficticias transmiten la misma información. En este caso, si una persona empleada es, por ejemplo, del departamento de contabilidad (es decir, el valor en la columna accounting es 1), entonces está claro que no pertenece a ningún otro departamento (en el resto de columnas, los valores son 0).
Así, podrías deducir su departamento mirando todas las demás columnas de departamento.
Por ese motivo, siempre que se creen \(n\) dummies (en tu caso, 10), solo \(n\) - 1 (en tu caso, 9) son suficientes, y la información de la \(n\)-ésima columna ya está incluida.
Por lo tanto, te desharás de la columna antigua department, eliminarás una de las dummies de departamento para evitar la trampa de dummies y, después, unirás los dos DataFrames.
Este ejercicio forma parte del curso
Analítica de RR. HH.: Predicción de rotación de empleados en Python
Instrucciones del ejercicio
- Usa
.drop()para eliminar la columnaaccountingy evitar la "trampa de dummies". - Usa
.drop()para eliminar la columna antiguadepartment, ya no la necesitas. - Une el nuevo DataFrame
departmentscon el conjunto de datosemployee(esto ya está hecho por ti).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)