ComenzarEmpieza gratis

Muestrear de la misma distribución de probabilidad

Muchas organizaciones, como el U.S. Census, publican muestras de los datos que recopilan sobre ciudadanos. Estos conjuntos de datos se anonimizan primero con varias técnicas y luego se publica una fracción muy pequeña (entre el 1 % y el 5 %) para permitir cálculos. Se sabe que el muestreo preserva las características estadísticas de los datos, lo que permite estudiar y comprender la población subyacente.

En este ejercicio, vas a anonimizar la columna department del conjunto de datos de IBM HR muestreando a partir de las distribuciones del conjunto de datos original.

El conjunto de datos se ha cargado como hr.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Ver curso

Instrucciones del ejercicio

  • Obtén las frecuencias relativas de cada valor único en la columna department.
  • Extrae las probabilidades de counts y guárdalas en una variable llamada distributions.
  • Muestra según las distribuciones de probabilidad calculadas. El tamaño de la muestra debe ser igual al tamaño del conjunto de datos hr.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())
Editar y ejecutar código