ComeçarComece de graça

Conjuntos de dados com a mesma distribuição probabilística

O objetivo dos dados sintéticos é criar um conjunto de dados o mais realista possível, sem expor informações pessoais importantes. Por exemplo, uma equipe da Deloitte Consulting gerou 80% dos dados de treinamento para um modelo de Machine Learning sintetizando dados. A precisão do modelo resultante foi semelhante à de um modelo treinado com dados reais.

Neste exercício, você vai gerar do zero um conjunto de dados sintético usando Faker que segue uma distribuição probabilística carregada como p.

O gerador Faker fake_data já foi inicializado e numpy foi importado como np.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)
Editar e executar o código