Preparar datos de empleados para una publicación segura
Cuando trabajas con datos reales, debes asegurarte de que no haya forma de rastrear o exponer la información personal de clientes u otras personas. En este ejercicio, usarás una versión simplificada del conjunto de datos IBM HR Analytics Employee para practicar técnicas de supresión y generalización.
Para evitar filtrar información sobre el conjunto de datos, vas a reemplazar los nombres de las columnas por números.
El DataFrame está cargado como hr; usa la consola para explorarlo. numpy está importado como np.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1)
# Drop the rows with NaN values
df_cleaned = ____