Generarea seturilor de date pentru clustering

Datele sintetice sunt complet legale și îndeplinesc toate cerințele legilor și reglementărilor privind confidențialitatea din întreaga lume. Reprezintă o alternativă validă și responsabilă față de datele brute, din perspectiva protecției vieții private. Funcția make_blobs() poate fi folosită pentru a genera puncte de date cu o distribuție gaussiană (sau normală).

În acest exercițiu, vei genera un set de date cu 15000 de eșantioane.

numpy a fost deja importat ca np, iar funcția personalizată plot_data_points() a fost pusă din nou la dispoziție pentru acest exercițiu.

Importă funcția corespunzătoare din modulul datasets pentru generarea seturilor de date de tip clustering.
Generează un set de date cu 15000 de eșantioane, 2 caracteristici, 2 centre și o deviație standard a clusterului de 3.
Afișează forma datelor generate.
Inspectează punctele de date rezultate într-un grafic scatter bidimensional.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu