Conjuntos de dados com a mesma distribuição probabilística
O objetivo dos dados sintéticos é criar um conjunto de dados o mais realista possível, sem expor informações pessoais importantes. Por exemplo, uma equipe da Deloitte Consulting gerou 80% dos dados de treinamento para um modelo de Machine Learning sintetizando dados. A precisão do modelo resultante foi semelhante à de um modelo treinado com dados reais.
Neste exercício, você vai gerar do zero um conjunto de dados sintético usando Faker que segue uma distribuição probabilística carregada como p.
O gerador Faker fake_data já foi inicializado e numpy foi importado como np.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)
# Generate 5 random cities
cities = ____
# See the generated cities
print(cities)