Menghasilkan himpunan data untuk pengelompokan
Data sintetis sepenuhnya legal dan memenuhi semua persyaratan undang-undang serta regulasi privasi di seluruh dunia. Ini adalah alternatif yang valid dan berorientasi privasi terhadap data mentah. Fungsi make_blobs() dapat digunakan untuk menghasilkan titik data dengan sebaran Gaussian (atau normal).
Dalam latihan ini, Anda akan menghasilkan sebuah himpunan data berisi 15000 sampel.
numpy telah diimpor sebagai np, dan fungsi kustom plot_data_points() telah disediakan kembali untuk latihan ini.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Impor fungsi yang sesuai dari modul
datasetsuntuk menghasilkan himpunan data pengelompokan. - Hasilkan himpunan data berisi
15000sampel dengan2fitur,2pusat, dan simpangan baku klaster sebesar3. - Cetak bentuk (shape) data yang dihasilkan.
- Periksa titik data yang dihasilkan dalam plot sebar 2 dimensi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____
# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____
# Print the shape of the resulting generated data
print(____)
# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)