Muestrear de la misma distribución de probabilidad
Muchas organizaciones, como el U.S. Census, publican muestras de los datos que recopilan sobre ciudadanos. Estos conjuntos de datos se anonimizan primero con varias técnicas y luego se publica una fracción muy pequeña (entre el 1 % y el 5 %) para permitir cálculos. Se sabe que el muestreo preserva las características estadísticas de los datos, lo que permite estudiar y comprender la población subyacente.
En este ejercicio, vas a anonimizar la columna department del conjunto de datos de IBM HR muestreando a partir de las distribuciones del conjunto de datos original.
El conjunto de datos se ha cargado como hr.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Instrucciones del ejercicio
- Obtén las frecuencias relativas de cada valor único en la columna
department. - Extrae las probabilidades de
countsy guárdalas en una variable llamadadistributions. - Muestra según las distribuciones de probabilidad calculadas. El tamaño de la muestra debe ser igual al tamaño del conjunto de datos
hr.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())