Gerando conjuntos de dados para classificação
Encontrar um conjunto de dados real que atenda a todas as combinações desejadas de critérios pode ser complicado e, se coletado, levantar preocupações de privacidade. Como solução, você pode usar geradores de conjuntos de dados para obter boas aproximações de dados do mundo real.
Neste exercício, você vai criar um conjunto de dados grande para um problema de classificação com 3 classes. Para facilitar a visualização dos dados gerados em um gráfico de dispersão, uma função personalizada foi disponibilizada como plot_data_points().
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Importe a função correspondente de
sklearn.datasetspara gerar conjuntos de dados de classificação. - Gere
5000amostras com4variáveis,1cluster por classe,3classes e uma separação entre classes de2. - Imprima o shape dos dados gerados.
- Veja o gráfico de dispersão resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the function for generating classification datasets
from sklearn.datasets import ____
# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____
# Inspect the generated data shape
print(____)
# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)