ComenzarEmpieza gratis

Explora la distribución de los datos

Cuando queremos anonimizar un conjunto de datos muestreando de forma muy realista, necesitamos adquirir conocimientos del dominio y estadísticos sobre los datos. Como hemos visto, encontrar la distribución de probabilidad de la columna de interés es clave.

En este ejercicio, vas a explorar la columna business_travel de una versión simplificada del conjunto de datos de RR. HH. de IBM.

El DataFrame se ha importado como hr y numpy como np. Como se mencionó en el capítulo anterior, pandas se ha importado como pd para este y el resto del curso.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Print the absolute frequencies of each unique value
print(____)
Editar y ejecutar código