Gerando conjuntos de dados para clustering
Dados sintéticos são totalmente legais e atendem a todos os requisitos de leis e regulamentações de privacidade no mundo todo. Eles são uma alternativa válida e consciente de privacidade em relação aos dados brutos. A função make_blobs() pode ser usada para gerar pontos de dados com distribuição Gaussiana (ou normal).
Neste exercício, você vai gerar um conjunto de dados com 15000 amostras.
numpy já foi importado como np, e a função personalizada plot_data_points() foi fornecida novamente para este exercício.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Importe a função correspondente do módulo
datasetspara gerar conjuntos de dados de clustering. - Gere um conjunto de dados com
15000amostras,2features,2centros e desvio padrão do cluster igual a3. - Imprima a forma (shape) dos dados gerados.
- Inspecione os pontos resultantes em um gráfico de dispersão bidimensional.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____
# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____
# Print the shape of the resulting generated data
print(____)
# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)