ComeçarComece de graça

Conjunto de dados sintético consistente

Um cenário em que empresas usam dados sintéticos é no treinamento de modelos de inteligência artificial e Machine Learning. Dados do mundo real às vezes são caros de coletar ou simplesmente difíceis de obter. Quando os dados de treino são altamente desbalanceados (por exemplo, mais de 90% das instâncias pertencem a uma classe), a geração de dados sintéticos pode ajudar a construir modelos de Machine Learning mais precisos.

Neste exercício, você vai gerar um conjunto de dados de avaliações de um app móvel usando Faker.

O DataFrame inicial é carregado como ratings com duas colunas: rating e gender. Um gerador Faker() já foi inicializado para você como fake_data.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female" 
                   else ____
                   for x in ratings['gender']] 
Editar e executar o código