ComeçarComece de graça

Gerando conjuntos de dados para clustering

Dados sintéticos são totalmente legais e atendem a todos os requisitos de leis e regulamentações de privacidade no mundo todo. Eles são uma alternativa válida e consciente de privacidade em relação aos dados brutos. A função make_blobs() pode ser usada para gerar pontos de dados com distribuição Gaussiana (ou normal).

Neste exercício, você vai gerar um conjunto de dados com 15000 amostras.

numpy já foi importado como np, e a função personalizada plot_data_points() foi fornecida novamente para este exercício.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Instruções do exercício

  • Importe a função correspondente do módulo datasets para gerar conjuntos de dados de clustering.
  • Gere um conjunto de dados com 15000 amostras, 2 features, 2 centros e desvio padrão do cluster igual a 3.
  • Imprima a forma (shape) dos dados gerados.
  • Inspecione os pontos resultantes em um gráfico de dispersão bidimensional.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)
Editar e executar o código