MulaiMulai sekarang secara gratis

Menghasilkan himpunan data untuk pengelompokan

Data sintetis sepenuhnya legal dan memenuhi semua persyaratan undang-undang serta regulasi privasi di seluruh dunia. Ini adalah alternatif yang valid dan berorientasi privasi terhadap data mentah. Fungsi make_blobs() dapat digunakan untuk menghasilkan titik data dengan sebaran Gaussian (atau normal).

Dalam latihan ini, Anda akan menghasilkan sebuah himpunan data berisi 15000 sampel.

numpy telah diimpor sebagai np, dan fungsi kustom plot_data_points() telah disediakan kembali untuk latihan ini.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Petunjuk latihan

  • Impor fungsi yang sesuai dari modul datasets untuk menghasilkan himpunan data pengelompokan.
  • Hasilkan himpunan data berisi 15000 sampel dengan 2 fitur, 2 pusat, dan simpangan baku klaster sebesar 3.
  • Cetak bentuk (shape) data yang dihasilkan.
  • Periksa titik data yang dihasilkan dalam plot sebar 2 dimensi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)
Edit dan Jalankan Kode