Conjunto de dados sintético consistente
Um cenário em que empresas usam dados sintéticos é no treinamento de modelos de inteligência artificial e Machine Learning. Dados do mundo real às vezes são caros de coletar ou simplesmente difíceis de obter. Quando os dados de treino são altamente desbalanceados (por exemplo, mais de 90% das instâncias pertencem a uma classe), a geração de dados sintéticos pode ajudar a construir modelos de Machine Learning mais precisos.
Neste exercício, você vai gerar um conjunto de dados de avaliações de um app móvel usando Faker.
O DataFrame inicial é carregado como ratings com duas colunas: rating e gender. Um gerador Faker() já foi inicializado para você como fake_data.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]